1. yapay zeka çalışmalarında bile kullanılan ilginç yasa.

    günlük kullanılan dilde ya da yazılan kitaplarda kelimeler belirli bir dağılım gösterir mi?

    george kingsley zipf bu sorunun cevabını aramış ve ilginç sonuçlar çıkmış ortaya. toplam dört yasadan oluşan zipf yasaları genellikle 1.yasa ile bilinir. o da kelime frekansları ile sıralamaları arasındaki ilişki ile alakalıdır.

    kısaca; kelime frekansı (f) ile sıra sayısı(r) çarpımının bir sabite(c) eşit olacağıdır.
    yani: (f)xr=c

    zipf ilk çalışmasını (bkz: james joyce - ulysses) kitabı üzerinde yapmış. bulduğu sonuçlar şöyle: ulysses- zipf 1.kanunu

    en çok kullanılan kelime ikincinin 2 katı, üçüncünün 3 katı şeklinde bir dağılım gösteriyor. fxr belirli bir aralıkta seyrediyor yani. bu çok ilginç.
    yani tesadüfen seçilen bir kitapta en çok kullanılan kelime 10000 defa kullanılmışsa en çok kullanılan 100. kelime ilginç bir şekilde yaklaşık 10000/100= 100 defa kullanılmıştır. peki hangi kelimeyi kaç defa kullandım diye hesap edilmeden yazılan bu kadar eserde bu sonuç nasıl gözlemlenir? nasıl açıklanabilir bu durum?

    zipf bu kanunun ortaya çıkışını "en az gayret ilkesi" ile açıklar. ona göre bir konuşmada iki taraf vardır. konuşmacı(yazar) ve dinleyici (okuyucu). konuşmacı en az kelime ile en çok fikri dile getirme eğiliminde iken dinleyici ise en fazla kelimeyi duyma ve bu şekilde muhatabının hangi kelimeyi hangi anlamda kullandığı ile ilgili az çaba sarfetme beklentisi vardır. işte bu iki istek karşılıklı çatışır ve bir denge oluşur.

    zipf 1. kanunu bütün dillerde çalışır. hatta antik dillerde bile. her internet sitesi, forum, gazete, dergi, kitapta. incilde bile zipf yasası işler. ilginç sonuçları vardır. kendiniz de deneybilirsiniz. mesela; rastgele elinize aldığınız bir kitabın kullanılan toplam farklı kelime sayısının %50 si sadece 1 defa kullanılmıştır.

    zipf'in diğer üç kanunu da kelime uzunluğu-anlam ilişkisi, kelime sıklığı-kelimeler arası mesafe, işlev-içerik kelimelerle ilgilidir. bu yasa sadece dilde ortaya çıkmaz. nüfusa göre şehir sıralamalarında, deprem sıklıkları ve şiddetlerinde, doğada, rastgele sonuçların elde edildiği denemelerde... 80-20 kuralı olarak bilinen pareto prensibi ile de ilişkilidir.

    günümüz dünyasının en fazla üzerinde durduğu şey yapay zeka. yapay zeka çalışmalarında da zipf yasasından yararlanılır. bir dili öğrenmek gramerden ibaret değil. istatistik daha çok işinize yarayacaktır. çünkü dil esnektir. yapay zeka kullanılan "yüz" kelimesinin hangi anlamda kullanıldığını(insan yüzü mü sayı olarak yüz mü vs) kavramak için işte bu zipf yasalarından yararlanacaktır.

    söylenecek çok şey var aslında ama elimden geldiğince özetlemeye çalıştım. son olarak google translate'in son halini gördünüz değil mi? evet, çeviri programlarının gelişiminde de zipf yasaları kullanılıyor.