Q-Learning
Tabular learning for small/medium state-action spaces. Useful for clear, step-by-step demonstrations.
Küçük/orta boyutlu durum-eylem uzaylarında tablo tabanlı öğrenme. Adım adım anlatım için elverişlidir.
Outputs: learned policy, Q-table diagnostics, convergence behavior
Çıktı: öğrenilen politika, Q-tablosu teşhisi, yakınsama davranışı
Multi-agent RL (overview)
Çok etmenli RL (özet)
Used when agents learn while affecting each other’s rewards. Reporting focuses on stability and variance.
Etmenler öğrenirken birbirinin ödülünü etkiliyorsa kullanılır. Raporlama istikrar ve varyans odaklıdır.
Outputs: policies, reward curves, ablations, failure cases
Çıktı: politikalar, ödül eğrileri, ablation, başarısız senaryolar
Decision settings
Karar kurgusu
We define state, action, reward, and constraints explicitly. If the reward is “shaped”, we say so.
Durum, eylem, ödül ve kısıtlar açık tanımlanır. Ödül “şekillendirilmişse” bu açıkça yazılır.
Outputs: MDP notes, reward design, evaluation protocol
Çıktı: MDP notu, ödül tasarımı, değerlendirme protokolü