V:
Zakaj je umetno ponavljajoče se nevronske mreže pogosto težko trenirati?
A:Zahtevnost usposabljanja umetno ponavljajočih se nevronskih mrež je povezana z njihovo kompleksnostjo.
Eden najpreprostejših načinov za razlago, zakaj je ponavljajoče se nevronske mreže težko usposobiti, je, da niso nevronske mreže.
V nadaljnjih nevronskih omrežjih se signali premikajo samo v eno smer. Signal se premakne iz vhodne plasti v različne skrite plasti in naprej do izhodne plasti sistema.
V nasprotju s tem imajo ponavljajoče se nevronske mreže in druge različne vrste nevronskih omrežij bolj zapletene signale. Ponavljajoča se kot "povratna" omrežja imajo ponavljajoča se nevronska omrežja signale, ki potujejo naprej in nazaj in lahko vsebujejo različne "zanke" v omrežju, kjer se v omrežje vrnejo številke ali vrednosti. Strokovnjaki to povezujejo z vidikom ponavljajočih se nevronskih mrež, ki so povezani z njihovim spominom.
Poleg tega obstaja še ena vrsta zapletenosti, ki vpliva na ponavljajoče se nevronske mreže. Odličen primer tega je na področju obdelave naravnega jezika.
Pri prefinjeni obdelavi naravnega jezika mora biti nevronska mreža sposobna si zapomniti stvari. Tudi v kontekstu mora sprejemati vire. Recimo, da obstaja program, ki želi analizirati ali napovedati besedo v stavku drugih besed. Sistem lahko na primer določi določeno dolžino petih besed. To pomeni, da mora nevronska mreža imeti vhode za vsako od teh besed, skupaj s sposobnostjo »pomnjenja« ali treninga v kontekstu teh besed. Zaradi teh in drugih podobnih razlogov imajo ponavljajoče se nevronske mreže ti majhni skriti zanki in povratne informacije v sistemu.
Strokovnjaki se pritožujejo, da ti zapleti otežujejo treniranje omrežij. Eden najpogostejših načinov za razlago tega je navajanje problema, ki eksplodira in izginja. V bistvu bodo uteži omrežja bodisi povzročile eksplozije ali izginjanje vrednosti z velikim številom prehodov.
Pionir nevronske mreže Geoff Hinton pojasni ta pojav v spletu, tako da pravi, da se bodo zaradi linearnih prehodov manjše teže eksponentno skrčile, večje uteži pa eksplodirale.
Ta problem, se nadaljuje, se poslabša z dolgimi zaporedji in številčnejšimi časovnimi koraki, v katerih signali rastejo ali propadajo. Inicializacija teže lahko pomaga, vendar so ti izzivi vgrajeni v model ponavljajoče se nevronske mreže. Vedno bo prišlo do te težave, ki je priložena njihovemu posebnemu oblikovanju in izdelavi. V bistvu nekateri bolj zapleteni tipi nevronskih mrež resnično kljubujejo naši sposobnosti, da jih enostavno upravljamo. Lahko ustvarimo praktično neskončno količino kompleksnosti, vendar pogosto opazimo, da izzivi predvidljivosti in skalabilnosti rastejo.