TVERSKY INDEX

Merhaba, bu yazımda sizlere Amos Tversky’nin ortaya koyduğu Tversky İndexini anlatacağım. Asıl konuya geçmeden önce Dize Benzerlik Ölçütleri nedir buna bakalım.
String Similarity Measures(Dize Benzerlik Ölçütleri)
Var olan Türkçe dokümanlardaki benzerliklerin tespit etmek ve mevcut yazılımların karşılaştırılması için kullanırız.
İnternet ortamındaki bilginin çoğalıp, yayılması ve her alanda gerçek sahibi dışında kullanıcısı olması ve kullanıcının kendi verisiymiş gibi davranması durumu çok fazla yaygınlaştı. Örneğin, eğitim hayatında öğrenciler kendilerine eğitmenleri tarafından verilen ödevler üzerinde çeşitli intihal(çalma, hırsızlık) yöntemlerini uygulamaktadırlar. Neden kullanıyoruz sorusuna buda bir yanıttır. Yapılan bu intihalleri CopyCatchGold, Sherlock, SIM, WCopyFind, JPlag, YTÜ Kemik Grubu tarafından hazırlanan Metin Eşleştirme Sistemi ve Doküman Benzerliği programları ile kendi kodladığımız ölçütler ile benzerlik oranlarını bulabiliriz.
Şimdi Tversky İndexini bulan Amos Tversky Hakkında biraz bilgi edinelim.
AMOS TVERSKY KİMDİR?
16 Mart 1937 de İsrail’in Hayfa şehrinde dünyaya gelen Amos Nathan Tversky bilişsel ve matematiksel psikolog ve bir bilim öğrencisiydi.
Daniel Kahneman’ın bir işbirlikçisi ve insan bilişsel önyargılarının ve risk konusunun ele alınmasının keşfinde bir figürdü.
Yaratıcı potansiyelinden dolayı MarcArthur Bursu kazandı.
Ve bunun dışında Guggenheim ABD & Kanada Sosyal Bilimler Bursu ödülünü de aldı.
Artık İndeximizi detaylıca inceleyebiliriz.
Tversky Indexi Nedir?
Varyant = Değişken, İkinci durum
Prototip = İlk hal, İlk model
Bir varyantın, bir prototiple karşılaştırılmış durumundaki asimetrik benzerlik ölçüsüdür..
Tanimato katsayısı ve zar katsayısının genelleşmiş halindeki asimetrik benzerlik ölçüsüdür..
Tversky İndexi küçük bir formül yardımı ile iki verinin benzerliğini yüzdelik olarak ölçer.
Tversky indexini anlamaya çalışalım
Burada formül ile işlem yapacağız. Bunu detaylı bir şekilde incelersek;
Alpha + Beta = 1 Olmak zorundadır.
İlk kelime: Takdir
İkinci kelime: Taktir
Bigram ile hecelere ayıralım.
İlk kelime: ta , ak, kd , di , ir (X olsun)
İkinci kelime: ta , ak, kt , ti , ir (Y olsun)
X — Y : kd , di = 2 hece vardır. (Birinci kelimemizde olup İkinci kelimemizde olmayan hecelerin sayısal karşılığıdır.)
X ∩ Y : ta, ak, ir = 3 hece vardır. (Birinci ve İkinci kelimede aynı olan hecelerin sayısal karşılığıdır.)
Y — X : kt , ti = 2 hece vardır. (Birinci kelimemizde olup İkinci kelimemizde olmayan hecelerin sayısal karşılığıdır.)
Alpha + Beta = 1
Alpha = 0,7
Beta = 0,3
Şimdi işlemimizi formül ile yapalım.


İşlemin sonucunu 0,6 buluyoruz bu yüzden ;
Benzerlik = 0,6
Benzerliğe yüzde olarak bakarsak:
Benzerlik * 100 = %60 değerini verir.
Burada taktir ve takdir kelimelerimizin benzerlik oranlarını %60 bulduk. Tversky İndexi ile benzerlik bulma işlemi bu şekilde ilerlemektedir.