Genel

TVERSKY INDEX

Merhaba, bu yazımda sizlere Amos Tversky’nin ortaya koyduğu Tversky İndexini anlatacağım. Asıl konuya geçmeden önce Dize Benzerlik Ölçütleri nedir buna bakalım.

İnternet ortamındaki bilginin çoğalıp, yayılması ve her alanda gerçek sahibi dışında kullanıcısı olması ve kullanıcının kendi verisiymiş gibi davranması durumu çok fazla yaygınlaştı. Örneğin, eğitim hayatında öğrenciler kendilerine eğitmenleri tarafından verilen ödevler üzerinde çeşitli intihal(çalma, hırsızlık) yöntemlerini uygulamaktadırlar. Neden kullanıyoruz sorusuna buda bir yanıttır. Yapılan bu intihalleri CopyCatchGold, Sherlock, SIM, WCopyFind, JPlag, YTÜ Kemik Grubu tarafından hazırlanan Metin Eşleştirme Sistemi ve Doküman Benzerliği programları ile kendi kodladığımız ölçütler ile benzerlik oranlarını bulabiliriz.

Şimdi Tversky İndexini bulan Amos Tversky Hakkında biraz bilgi edinelim.

Daniel Kahneman’ın bir işbirlikçisi ve insan bilişsel önyargılarının ve risk konusunun ele alınmasının keşfinde bir figürdü.

Yaratıcı potansiyelinden dolayı MarcArthur Bursu kazandı.

Ve bunun dışında Guggenheim ABD & Kanada Sosyal Bilimler Bursu ödülünü de aldı.

Artık İndeximizi detaylıca inceleyebiliriz.

Prototip = İlk hal, İlk model

Bir varyantın, bir prototiple karşılaştırılmış durumundaki asimetrik benzerlik ölçüsüdür..

Tanimato katsayısı ve zar katsayısının genelleşmiş halindeki asimetrik benzerlik ölçüsüdür..

Tversky İndexi küçük bir formül yardımı ile iki verinin benzerliğini yüzdelik olarak ölçer.

Tversky indexini anlamaya çalışalım

Alpha + Beta = 1 Olmak zorundadır.

İlk kelime: Takdir

İkinci kelime: Taktir

Bigram ile hecelere ayıralım.

İlk kelime: ta , ak, kd , di , ir (X olsun)

İkinci kelime: ta , ak, kt , ti , ir (Y olsun)

X — Y : kd , di = 2 hece vardır. (Birinci kelimemizde olup İkinci kelimemizde olmayan hecelerin sayısal karşılığıdır.)

X ∩ Y : ta, ak, ir = 3 hece vardır. (Birinci ve İkinci kelimede aynı olan hecelerin sayısal karşılığıdır.)

Y — X : kt , ti = 2 hece vardır. (Birinci kelimemizde olup İkinci kelimemizde olmayan hecelerin sayısal karşılığıdır.)

Alpha + Beta = 1

Alpha = 0,7

Beta = 0,3

Şimdi işlemimizi formül ile yapalım.

İşlemin sonucunu 0,6 buluyoruz bu yüzden ;

Benzerlik = 0,6

Benzerliğe yüzde olarak bakarsak:

Benzerlik * 100 = %60 değerini verir.

Burada taktir ve takdir kelimelerimizin benzerlik oranlarını %60 bulduk. Tversky İndexi ile benzerlik bulma işlemi bu şekilde ilerlemektedir.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir