V:
Kako je pridobivanje podatkov za strojno učenje postalo najbolj delovno ozko grlo od ročnega vnosa podatkov v zapuščeno migracijo?
A:Ena izmed praktičnih težav, s katerimi se podjetja lahko srečujejo pri poskusu zagona projekta strojnega učenja (ML), je izziv pri pridobivanju začetnih naborov podatkov o usposabljanju. To lahko vključuje delovno intenzivne postopke, kot so spletno strganje ali druge zapise podatkov.
Izraza spletno strganje in strganje podatkov se v veliki meri nanašata na avtomatizirano dejavnost z računalniško programsko opremo, toda pri mnogih projektih ML bodo primeri, ko računalniki nimajo prefinjenosti za zbiranje pravih ciljnih podatkov, zato bo treba to storiti "ročno." Temu bi lahko rekli "škratanje ljudi po spletu / podatkih" in to je nehvaležno delo. Na splošno vključuje odhod in iskanje podatkov ali slik, s katerimi lahko "nahranite" program ML prek treningov. Pogosto je precej iterativno, zaradi česar je mučno, počasno, zahtevno delo.
Prosti prenos: Strojno učenje in zakaj je pomembno |
Podatki o setih za usposabljanje za ML predstavljajo izredno problematično ozko grlo pri strojnem učenju, deloma tudi zato, ker je tako veliko drugega dela zelo konceptualno in se ne ponavlja. Marsikdo si lahko zamisli novo idejo za novo aplikacijo, ki izvaja naloge strojnega učenja, vendar so lahko matice in vijaki ter praktično delo veliko težje. Zlasti delegiranje dela sestavljanja vadbenih garnitur je dejansko lahko eden najtežjih delov projekta ML, kot je bilo v celoti raziskano v TV-oddaji "Silicijeva dolina" Mikea Sodnika. V epizodi v sezoni 4 podjetnik, ki se ukvarja z zagonom, partnerja najprej ustrahuje pri opravljanju delovno intenzivnega dela, nato pa ga skuša prenesti na študente, tako da ga prikrije kot domačo nalogo.
Ta primer je poučen, saj prikazuje, kako neljubi in na videz nepomembni so ročni zapiski podatkov. Vendar pa tudi kaže, da je ta postopek potreben za široko paleto izdelkov strojnega učenja. Čeprav večina ljudi sovraži vnos podatkov, morajo biti sklopi vadbe na nek način sestavljeni. Strokovnjaki za ta postopek pogosto priporočajo uporabo storitve spletnega strganja - v bistvu samo to zelo delovno intenzivno delo oddajajo zunanjim strankam, vendar bi to lahko imelo varnostne posledice in povzročilo druge težave. Ko je ročno zbiranje podatkov v notranjosti, je treba sprejeti določbo, ki je pogosto zelo ročen in dolgotrajen postopek.
Na nek način "zapisovanje človeških podatkov" za strojno učenje izgleda kot ročni vnos podatkov, ki ga je bilo včasih treba storiti pri zapuščenih migracijah. Ko je oblak postajal vse bolj priljubljen in so podjetja svoje procese in delovne tokove postavljala v oblak, so nekatera ugotovila, da niso predelala praktičnih vidikov, kako svoje korporativne podatke iz izoliranega zapuščenega sistema spraviti v aplikacije v domačem oblaku. Posledično so se nekateri, ki so sicer znanstveniki podatkov ali kreativni ljudje z bistvenimi znanji IT, znašli v neprijetnih nalogah za vnos podatkov.
Enako se bo verjetno zgodilo s strojnim učenjem. Morda boste slišali podatkovnega znanstvenika, ki se pritožuje, da sem "ustvarjalna oseba" ali "sem na strani razvoja" - vendar mora nekdo opraviti umazano delo.
Ponovno, če ustvarjalni tok ne ustreza praktični oceni prenosa delovnih tokov, bo prišlo do neusklajenosti v usmerjanju ravnanja z nalogami. Če podjetje nima ljudi, ki bi delali pri zapisovanju podatkov pri zbiranju naborov podatkov, nima ključnega dela postopkovne verige za uspešen projekt. To je smiselno upoštevati vsakič, ko se podjetje poskuša uveljaviti na ideji, ki temelji na razvoju novih aplikacij za strojno učenje.