Domov Zvok Kakšni so ključni načini za avtomatizacijo in optimizacijo procesov na področju podatkov?

Kakšni so ključni načini za avtomatizacijo in optimizacijo procesov na področju podatkov?

Anonim

V:

Kakšni so ključni načini za avtomatizacijo in optimizacijo procesov na področju podatkov?

A:

Podatkovne procese v okviru strojnega učenja in AI lahko razdelimo na štiri različne faze:

  1. pridobivanje in raziskovanje podatkov,
  2. oblikovanje modelov,
  3. uvajanje modela in
  4. spletno ocenjevanje in izpopolnjevanje.

Po mojih izkušnjah so najbolj ovirane faze zbiranja podatkov in faze uvajanja modelov v kateri koli proces strojnega učenja, temelječega na znanju podatkov, in tukaj sta dva načina za njihovo optimizacijo:

1. Vzpostavite visoko dostopno shrambo podatkov.

V večini organizacij se podatki ne hranijo na enem osrednjem mestu. Vzemimo le informacije, povezane s strankami. Imate podatke o stikih s strankami, e-poštna sporočila za podporo strankam, povratne informacije in zgodovino brskanja strank, če je vaše podjetje spletna aplikacija. Vsi ti podatki so naravno razpršeni, saj služijo različnim namenom. Lahko se nahajajo v različnih bazah podatkov, nekatere pa so lahko v celoti strukturirane, nekatere pa nestrukturirane in so celo shranjene kot datoteke z navadnimi besedili.

Na žalost razpršenost teh nizov podatkov zelo omejuje na nauk o podatkih, saj je osnova vseh NLP, strojnega učenja in AI problemov. Torej, imeti vse te podatke na enem mestu - shrambi podatkov - je najpomembnejše pri pospeševanju razvoja in uvajanja modelov. Glede na to, da je to ključni del vseh procesov na področju podatkov, bi morale organizacije najeti usposobljene inženirje, ki jim bodo pomagali pri gradnji svojih podatkovnih trgovin. To se lahko preprosto začne kot preprost odlaganje podatkov na eno lokacijo in počasi preraste v dobro premišljeno shrambo podatkov, ki je v celoti dokumentirana in poizvemna s pripomočki za uporabo, da izvozite podmnožice podatkov v različne formate za različne namene.

2. Izpostavite svoje modele kot storitev za brezhibno integracijo.

Poleg omogočanja dostopa do podatkov je pomembno tudi, da lahko v izdelek vključimo modele, ki so jih razvili znanstveniki s področja podatkov. Zelo težko je integrirati modele, razvite v Pythonu, s spletno aplikacijo, ki deluje na Rubyju. Poleg tega imajo lahko modeli veliko podatkovnih odvisnosti, ki jih vaš izdelek morda ne bo mogel zagotoviti.

Eden od načinov za reševanje tega vprašanja je, da postavite močno infrastrukturo okoli svojega modela in izpostavite ravno toliko funkcionalnosti, ki jih potrebuje vaš izdelek, da lahko model uporabljate kot "spletno storitev". Na primer, če vaša aplikacija potrebuje razvrstitev občutkov na ocene izdelkov Vse, kar bi morali storiti, je sklicevanje na spletno storitev in zagotavljanje ustreznega besedila in storitev bi vrnila ustrezno klasifikacijo občutkov, ki jo izdelek lahko neposredno uporablja. Tako je integracija preprosto v obliki klica API. Če ločite model in izdelek, ki ga uporabljate, je zelo enostavno, da novi izdelki, ki jih omislite, prav tako uporabljajo te modele z malo težav.

Zdaj je postavitev infrastrukture okoli vašega modela povsem druga zgodba in zahteva velike začetne naložbe vaših inženirskih skupin. Ko je infrastruktura tam, je le stvar gradnje modelov na način, ki se prilega infrastrukturi.

Kakšni so ključni načini za avtomatizacijo in optimizacijo procesov na področju podatkov?