Pekiştirmeli Öğrenme Tipleri
Pekiştirmeli Öğrenme Alanında Algoritmaların Ayrıldığı 5 Alan
Bu yazımızda Yapay Zeka alanında oldukça popüler olmaya başlayan Pekiştirmeli Öğrenmenin tipleri ve kısaca bu tiplerin açıklamaları paylaşılmıştır. Pekiştirmeli Öğrenme Yapay Zeka alanındaki bir çok öğrenme yöntemi ile ortak yöntemler ile harmanlansa da en basit 5 tipten ibarettir. Bu yazımızda basit 5 tip üzerinden anlatım yapılmıştır.
Model Free (Modelden Bağımsız)
Bu tip algoritmalar modeli yani çevreyi öğrenmeye gerek duymaksızın çevrede hareket alır. Model tabanlı algoritmalar arama ve planlamaya doğru kayarken modelden bağımsız algoritmalar direkt aksiyon alımında bulunur. Alınan aksiyonlar ve bu aksiyonlara karşılık alınan ödüller üzerinden ajan eğitilir. Bu tip algoritmalar açıkça planlama yapamaz.
Q Learning gibi sıklıkla kullanılan algoritmalar temporal fark kullandıkları ve çevreyi tahmin etmeye çalışmadıkları için bu kategoride yer alır.
Model Based (Model Tabanlı)
Bu tip PÖ algoritmaları bulunduğu ortamın geçiş olasılıklarına hakim olmaya çalışır. Geçiş olasılıklarını kısaca herhangi bir durumda başka bir durumun karşımıza gelme olasılığı olarak görebiliriz. Yani bu tip algoritmalar ortam dinamiklerini öğrenmeye çalışır ve bu ortam dinamikleri üzerinden aslında planlama yaparak en iyiye ulaşmaya çalışır.
Model Tabanlı algoritmalar ortam dinamiklerini modellemeye çalıştığı için bu tip algoritmalar çoğunlukla planlama algoritmaları olarak geçer. Bu gibi algoritmalarda ise sorun ortamın kompleksliği ile oluşabilecek planlama ve öngörülememe hatalarıdır.
Model Tabanlı Tekniklerden Bazıları aşağıdaki gibidir:
Analytic gradient computation
Sampling-based planning
Model-based data generation
Value-equivalence prediction
Value Based (Değer Tabanlı)
Her durum ve aksiyon veya her durumun ne kadar iyi olduğunu tanımlayan değer fonksiyonları(V,q) göz önüne alınarak aksiyon seçimi yapılır. Bu tip algoritmalarda politikayı sözel düşünebilirsiniz. Durumlara ve aksiyonlara ait değerler içerisinden seçim yapılır.
Bu gibi algoritmalarda ortam girdileri kompleks ve/veya süreklileştiği durumlarda derin öğrenme modelleri değer fonksiyonlarını modellemek için kullanılır.
Policy Based (Politika Tabanlı)
Her durum ve aksiyon için değer fonksiyonu hesaplamaya gerek duymadan direkt olarak aksiyon alımını gerçekleştirir. Bu tip algoritmaları basitçe ortam durumunu girdi olarak alan çıktı olarak ise hareket veren bir politika modeli olarak düşünebilirsiniz.
Actor-Critic(Hibrit) (Aktör ve Kritik - Politika ve Değer fonksiyonu)
İçerisinde hem politika hem de değer fonksiyonu bulunduran algoritmalardır. Politika tabanlı algoritmaların unutkanlık eksikliğini gidermek amacıyla ortaya atılmışlardır. Politika hareket alımını yaparken, güncelleme esnasında değerler kritikten alınır.