Məzmuna keç

Qiymətləndirmə ilə öyrənmə

Vikipediya, azad ensiklopediya

Qiymətləndirmə ilə öyrənmə və ya möhkəmləndirmə ilə öyrənməmaşın öyrənməsinin agentin mühitlə qarşılıqlı əlaqə zamanı aldığı mükafat və cəza siqnallarına əsasən davranış strategiyası öyrəndiyi sahəsidir.[1][2] Bu yanaşmada modelə düzgün cavablar əvvəlcədən verilməz; məqsəd uzunmüddətli mükafatı maksimum edən qərar qaydasını tapmaqdır.[1]

Əsas anlayışlar

[redaktə | vikimətni redaktə et]

Qiymətləndirmə ilə öyrənmədə əsas anlayışlar agent, mühit, vəziyyət, hərəkət və mükafatdır.[3] Agent mühitdə hərəkətlər edir, nəticələri müşahidə edir və aldığı mükafatlara əsasən gələcək qərarlarını yaxşılaşdırır.[1]

Bu sahədə mühüm üsullara temporal fərq öyrənməsi və Q-öyrənmə daxildir.[3][4] Müasir dövrdə dərin neyron şəbəkələri ilə birləşdirilmiş üsullar, xüsusən dərin qiymətləndirmə ilə öyrənmə, mürəkkəb mühitlərdə də uğurla tətbiq olunur.[5]

Qiymətləndirmə ilə öyrənmə oyunlarda, robototexnikada, resurs bölgüsündə və qərarvermə sistemlərində istifadə olunur.[2][5]

  1. 1 2 3 Kaelbling, Leslie Pack; Littman, Michael L.; Moore, Andrew W. "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4. 1996: 237–285. doi:10.1613/jair.301.
  2. 1 2 Padhi, Ingo; Schiff, Yoram; Melcer, Dina; Houge, Thomas; Altman, Eitan. "Reinforcement learning algorithms: A brief survey". Expert Systems with Applications. 231. 2023: 120495. doi:10.1016/j.eswa.2023.120495.
  3. 1 2 Sutton, Richard S. "Learning to Predict by the Methods of Temporal Differences". Machine Learning. 3 (1). 1988: 9–44. doi:10.1007/BF00115009.
  4. Watkins, Christopher J. C. H.; Dayan, Peter. "Q-learning". Machine Learning. 8 (3–4). 1992: 279–292. doi:10.1007/BF00992698.
  5. 1 2 Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K.; Ostrovski, Georg; Petersen, Stig; Beattie, Charles; Sadik, Amir; Antonoglou, Ioannis; King, Helen; Kumaran, Dharshan; Wierstra, Daan; Legg, Shane; Hassabis, Demis. "Human-level control through deep reinforcement learning". Nature. 518 (7540). 2015: 529–533. doi:10.1038/nature14236.