Qiymətləndirmə ilə öyrənmə
| Maşın öyrənməsi və intellektual verilənlərin analizi |
|---|
Qiymətləndirmə ilə öyrənmə və ya möhkəmləndirmə ilə öyrənmə — maşın öyrənməsinin agentin mühitlə qarşılıqlı əlaqə zamanı aldığı mükafat və cəza siqnallarına əsasən davranış strategiyası öyrəndiyi sahəsidir.[1][2] Bu yanaşmada modelə düzgün cavablar əvvəlcədən verilməz; məqsəd uzunmüddətli mükafatı maksimum edən qərar qaydasını tapmaqdır.[1]
Əsas anlayışlar
[redaktə | vikimətni redaktə et]Qiymətləndirmə ilə öyrənmədə əsas anlayışlar agent, mühit, vəziyyət, hərəkət və mükafatdır.[3] Agent mühitdə hərəkətlər edir, nəticələri müşahidə edir və aldığı mükafatlara əsasən gələcək qərarlarını yaxşılaşdırır.[1]
Üsulları
[redaktə | vikimətni redaktə et]Bu sahədə mühüm üsullara temporal fərq öyrənməsi və Q-öyrənmə daxildir.[3][4] Müasir dövrdə dərin neyron şəbəkələri ilə birləşdirilmiş üsullar, xüsusən dərin qiymətləndirmə ilə öyrənmə, mürəkkəb mühitlərdə də uğurla tətbiq olunur.[5]
Tətbiqləri
[redaktə | vikimətni redaktə et]Qiymətləndirmə ilə öyrənmə oyunlarda, robototexnikada, resurs bölgüsündə və qərarvermə sistemlərində istifadə olunur.[2][5]
Həmçinin bax
[redaktə | vikimətni redaktə et]İstinadlar
[redaktə | vikimətni redaktə et]- 1 2 3 Kaelbling, Leslie Pack; Littman, Michael L.; Moore, Andrew W. "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4. 1996: 237–285. doi:10.1613/jair.301.
- 1 2 Padhi, Ingo; Schiff, Yoram; Melcer, Dina; Houge, Thomas; Altman, Eitan. "Reinforcement learning algorithms: A brief survey". Expert Systems with Applications. 231. 2023: 120495. doi:10.1016/j.eswa.2023.120495.
- 1 2 Sutton, Richard S. "Learning to Predict by the Methods of Temporal Differences". Machine Learning. 3 (1). 1988: 9–44. doi:10.1007/BF00115009.
- ↑ Watkins, Christopher J. C. H.; Dayan, Peter. "Q-learning". Machine Learning. 8 (3–4). 1992: 279–292. doi:10.1007/BF00992698.
- 1 2 Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K.; Ostrovski, Georg; Petersen, Stig; Beattie, Charles; Sadik, Amir; Antonoglou, Ioannis; King, Helen; Kumaran, Dharshan; Wierstra, Daan; Legg, Shane; Hassabis, Demis. "Human-level control through deep reinforcement learning". Nature. 518 (7540). 2015: 529–533. doi:10.1038/nature14236.