1. esasinda beyindeki odul/ceza/bagimlilik sisteminin ve dopaminin yaptigi isin cakmasidir.

    pi -> karar mekanizmasi/politikasi
    s -> cevrenin o anki durumu (state)
    a -> yapilan aksiyon (action)
    q(s, a) -> cevrenin s durumunda yapilan a hareketinin bize verdigi odul/deger.
    gama -> discount

    normalde en optimal karar verme politikasi icin tum q fonksiyonlarini biliyor olmamiz gerekiyor, soyle bir sey oluyor:

    pi*(s) = argmax {her a icin q*(s, a)}
    (basitce s durumunda alinacak aksiyon, bize en yuksek degeri getirecek olan demek istiyor)

    ama tabii ki tum q fonksiyonunun tum degerlerini bilmiyoruz (q*). hal oyle olunca tum aksiyonlar icin getiri/goturu de hesaplayamiyoruz. dolayisiyla q'yu tahmin etmeye calisiyoruz. biliyoruz ki belli bir politika icin tanimlanmis q fonksiyonlarinin hepsi bellman esitligine uyuyor.

    q_pi(s, a) = getiri + (gama x q_pi(s', pi(s'))
    (belli bir pi politikasina gore deger analizi yapan q degeri = anlik getiri + o aksiyonu yaptiktan sonra icine dusecegimiz cevrede alacagimiz aksiyonlarin degerleri.)

    boylece "istersem banka soyup 1 milyon lira kazanabilirim ama hapse girme olasiligim yuksek" gibi gelecegi dusunerek karar verme olayini taklit edebiliyoruz. cok cok cok uzak olasiliklar gama degeri sayesinde yok sayiliyor. gama'nin degeri genelde 0.9 - 0.99 arasinda veriliyor. boylece model cok da gelecegi dusunmeden karar verebiliyor (bizim yaptigimiz gibi).

    ayni sekilde baska bir senaryo: acsiniz, yemek yemek istiyorsunuz, bunun sizin icin cok iyi olacagini dusunuyorsunuz. dolayisiyla makarna yapip yemeye basliyorsunuz. mideniz doldukca yemek yeme isteginiz yavas yavas kayboluyor cunku artik yemek yemeye ihtiyaciniz yok. doydunuz. bunlarin olacagini ta onceden bildiginiz icin, kendinize yemek icin 1 kg makarna koymadiniz. 100-150 gram makarna koydunuz ve yediniz. boylece sonraki ogunler icin de yiyeceginiz kalmis oldu. ziyan etmediniz.