bootstrapping - youreads



  1. kucuk bir numuneden, genel populasyon hakkinda ahkam kesmeye yarayan istatistiksel bir ornekleme teknigi.

    durun hemen kacmayin, anlatacaklarim var. aslinda "tabi lan, bu bircok seye uygulanir" denebilecek bir seyden bahsedecegim.

    cogu muhendislik alaninda son 20 senedir kullanilmaya baslanmis, bazen akademik makaleleri biraz istatistikle susleyerek, o ikinci reviewer'i susturma amaci tasiyan, bazen de "ben bu modelden 'ne kadar' emin degilim acaba" sorusunu cevaplamayi saglayan bir cesit istatistiksel metoddur.

    baslamadan, direkt karsiliklarinin gunluk konusma dilinde tek kelimeyle saglanamayacagini ongorerek bazi tanimlar yapmayi uygun goruyorum.

    1) sample: numune. ornegin turkiye'de 80 kusur milyon insan yasar. ankara bir sample'dir. hepsini tarif etmez, ama hepsini tarif edebilecek ogelere sahiptir. hani o hep soylenen, bin bir cesit insan var ya laflari gibi. ankara'da yasayan tum insanlarin tum ozelliklerini bilsek bile, tum turkiye hakkinda kesin bir kanaat olusturamazsiniz; cunku bin bir cesit insan var.

    2) populasyon: ilgilenilen tum topluluk. bu ornegimde turkiye. ankara sample idi ya hani, turkiye de populasyon (sakin sakin anlatiyorum diye kanmayin, az sonra kafanizi karistiracagim).

    3) resampling: "re" "yeniden" demek. yeniden orneklemek. mesela elimizde yalnizca ankara'daki insanlarin tum ozellikleri var ve turkiye hakkinda cikarimlarda bulunacagiz. bu durumlarda ankara'yi yeniden ornekleriz.

    4) model: bana bu, bu, bu ve de bu bilgileri ver, ben de sana soyle bir cikarimda bulunayim diyen matematiksel bir ongoru, cikarim. bana arkadasini soyle, sana kim oldugunu soyleyeyim lafi, aslinda parametric bootstrappingdir; ama kimse bilmez, hey gidi...

    simdi bizim bir modelimiz olsun. modelimizin bizden istedigi bilgiler de insanlarin evindeki kirmizi kazak sayisi, arabalarinin motor hacmi, ortalama kac gunde bir yahni yemegi yedikleri gibi gorunuste "nedensel" bir baglanti bulunmasa da, "anlasilmaz bir sekilde correlated -iliskili-" olabilecek ve bunu bilemeyecegimiz bilgiler olsun. yani size desem ki bana evindeki kirmizi kazak sayisini soyle, ben de sana arabanin motor hacmini soyleyeyim diyemeyin. oyle is mi olur manyak midir nedir desinler.

    simdi diyeceksiniz, bu nasil model, kafayi mi yedin. yemedim. bu model, insanlarin yilda kac para kazandiklarini tahmin etmeye calissin. simdi, zayif ilintiler gorebilirsiniz; bunlar -tabi ki- her zaman dogru degil, ama size bir "himmm" dedirtecek cinstendir. evinizdeki kirmizi kazak sayisi, kazandiginiz para ile correlated olabilir. evet, her cok para kazananin evinde cok kirmizi kazak olmaz; ama cok para kazananin evinde daha cok kazak olmasini beklerim, bu yuzden de kirmizi kazaklar daha cok olabilir. yani zayif da olsa bir iliski vardir. ayni sekilde, cok para kazananlarin motor hacimleri yuksek olabilir, daha cok yahni yemegi yiyor da olabilirler.

    ya da butun bu veriler, yilda 60 bin - 70 bin lira arasi kazanan insanlarda bir trend gosteriyor, ve ardindan yok oluyor da olabilir. yani fakir adamin arabasi yok bi kere, ne diyon kocum benim demeyin, ya da yahni mi, o ne ki, demeyin.

    modelimiz aylik kazanci tahmin etmek icin kirmizi kazak sayisinin kupunu motor hacmiyle carpsin, bu sonucu da kac gunde bir yahni yiyorlarsa ona bolsun.

    got it? good (hesaplayanlari hissediyorum, guzeeel).

    simdi bizim amacimiz, turkiye'deki insanlarin ne kadar para kazandigini tahmin etmekti. bunu yaparken de yalnizca ankara'daki insanlarin bilgisini kullaniyoruz. hepsini birden tek sefer kullanirsak, ankara hakkinda cikarim yapabilirsiniz, turkiye hakkinda degil. ama ne demistik, ankara'da da bin bir cesit insan var. fakiri var zengini var.

    simdi bootstrapping baslasin.

    ben ankara'da yasayan insanlardan "sampling with replacement" seklinde resampling yapiyorum. bazi resample'larimda fakir insanlar yok, bazisinda fakir zengin karisik, bazisinda kirmizi kazagi 3'ten fazla olan yok, bazisinda motor hacmi 1400cc'nin altindakiler var. bu tamamen rastgele bir secim. eger coook fazla rastgele secim yaparak yeni yeni sample'lar olusturursaniz, populasyon hakkinda cikarim yapmaniz mumkundur. 100 kere resampling yapinca mesela, 100 tane yeni, baska birer ankara yaratiyorsunuz, baska bir boyut gibi dusunun. bu boyutlardan birini (yani bir bootstrap sample'ini) ele alalim: o ankara'da herkeste olan kirmizi kazak sayisi 4, motor hacimleri 1600cc altinda ve hepsi en az 20 gunde bir yahni yiyor. e, bu durumda da bizim modelimiz diyecek ki, boyle bir ankara'da aylik kazanc en azindan 5000 lira civari. baska bootstrap sample'lar bu sayilari baska soyleyecek; baska aylik kazanc tahmin edecekler.

    ama dikkat edersiniz ki, yeni yaratilan sample'lar bazen ankara'nin bir kismini anlatiyor, bazen hepsinden birer nebze, bazen de tam oteki yuzunden olusturulmus ogelerden olusmus. yani aslinda, her turlu insani kapsamis. bunu da bootstrap sayisini 100 degil de 100,000 yaparak saglarsiniz. 100 bin tane yeni ankara yaratarak yani. her ankara'da yeniden model tahmininizi yapar, yeniden sonuc alirsiniz. sonra her bir tahmin sonucunuzu bir yere yazar, bakarsiniz, kac cikmis; ortalamadan ne kadar sapmis, cogunlukla fakirler mi var, zenginler mi var vs.

    simdi olayi karmasiklastirmak icin bir boyut daha ekleyeyim. sizin modeliniz (hani aylik kazanci tahmin etmek icin kirmizi kazak sayisinin kupunu motor hacmiyle carpan, bu sonucu da kac gunde bir yahni yiyorlarsa ona bolen) aslinda taaaa en basta ankara icin yapilmis bir modeldi. bu modeli nasil olusturduysaniz, bunun bir proseduru olmali degil mi? hah, simdi o proseduru her bir bootstrap'te yaniden uygulayip, yeni model olusturdugunuzu dusunun. bir bootstrap'te motor hacmiyle carpiyorsa, digerinde motor hacminin 2 katiyla carpiyor da olabilir. bir digerinde kazak sayisinin kupunu degil, karesini alsin mesela.

    butun bu kombinasyonlari ele aldiginizda, size bir "confidence interval" yani "guven araligi" cikacaktir. modelinizin tipinin temelde (fundamentally) ne kadar kati ve sarsilmaz, ne kadar guzel tahmin yapabildigini ortaya cikartan cok degerli bir bilgidir bu. yani, farkli farkli sehirlerde yapsaydim ne gibi bir cevap (response) alirdim acaba sorusunu yanitladiniz. sonuclara bakip, "himm, eger kazak sayisi 5'ten fazlaysa benim model calismiyor, cunku confidence interval cok genis" diyebilirsiniz. ayrica, belki modeliniz bazi yerlerde cok iyidir; dersiniz ki: "eger kazak sayin 3, araba hacmin 1500cc ve 15 gunde bir yahni yiyorsan, yuzde 86 ihtimalle kazancin su su araliktadir."

    ilginctir fena tutturursunuz.

    ilgilenen herkese benden bi yahni.