Kazalo:
Opredelitev - Kaj pomeni krepitev učenja?
Okrepitveno učenje v okviru umetne inteligence je vrsta dinamičnega programiranja, ki trenira algoritme z uporabo sistema nagrad in kazni.
Algoritem učenja ali agent, ki se krepi, se uči z interakcijo s svojim okoljem. Zastopnik prejme nagrade s pravilno izvedbo in kazni za nepravilno delovanje. Človeški agent se brez posredovanja uči tako, da poveča svojo nagrado in zmanjša svojo kazen.
Tehopedia razlaga ojačitveno učenje
Okrepitveno učenje je pristop k strojnemu učenju, ki ga navdihuje behavioristična psihologija. Podobno je, kako se otrok nauči opravljati novo nalogo. Okrepitveno učenje je v nasprotju z drugimi pristopi strojnega učenja, saj algoritmu ni izrecno zapisano, kako izvesti nalogo, ampak deluje sam skozi težavo.
Kot zastopnik, ki bi lahko bil samovozeči avtomobil ali program, ki igra šah, v interakciji z okoljem, prejme stanje nagrad, odvisno od uspešnosti, na primer varno vožnjo do cilja ali zmago v igri. Nasprotno, agent prejme kazen za nepravilno izvedbo, na primer odhod s ceste ali preverjanje.
Agent se sčasoma odloči, da bo z dinamičnim programiranjem povečal svojo nagrado in čim manj kaznoval. Prednost tega pristopa k umetni inteligenci je, da omogoča programu AI, da se uči, ne da bi programer natančno določil, kako naj agent opravi nalogo.