V:
Kateri so štirje temelji, da lahko postanete dober podatkovnik?
A:Kot poudarjajo številni strokovnjaki, je za to, da postaneš velik znanstvenik s podatki, potrebna kombinacija veščin in izkušenj, ki se pridobijo z namenskim učenjem in analizo zapletenega področja. Znanstveniki podatkov kot skrbniki in kustosi dragocenih podatkovnih sredstev so danes zelo povprašeni. Poglejmo, kaj vključuje nekaj teh temeljnih veščin.
Prva od štirih temeljnih komponent dela znanstvenika je matematika in statistika. Dobri znanstveniki se morajo naučiti biti sogovorniki o različnih matematičnih konceptih, povezanih z nadzorovanim in nenadzorovanim strojnim učenjem, vključno z vrstami algoritmov, kot so drevesa odločitev, naključni gozd, logistična regresija, grozdenje in uporaba dimenzij v strojnem učenju (ML). Na splošno bi se morali dobro ukvarjati z delom z matematičnimi enačbami in statistiko z uporabo virov statistične analize.
Druga glavna temeljna komponenta znanstvenega dela na področju podatkov vključuje programiranje in upravljanje podatkovnih baz. Posamezniki bi morali biti močni v pisanju jezikov, kot sta Python, in statističnih jezikov, kot je R, skupaj z izkušnjami in spretnostmi z bazo podatkov in semantiko SQL ter operativnimi tehnikami. Poznavanje komponent programske opreme, kot so Hadoop, MapReduce, Hive in Pig, je privlačno tudi za delodajalce.
Tretja temeljna sestavina tega, da postanemo dober znanstvenik, je teoretična in filozofska komponenta razumevanja znanosti o podatkih in strojnega učenja. Ti posamezniki bi morali samozavestno reševati težave z radovednimi mislimi - navsezadnje kombinirajo surovo kvantitativno analizo s kreativnim razumevanjem strojnega učenja in procesov na področju podatkov. Namesto da bi bili ljudje s tehničnimi številkami, bi morali imeti globoko podlago v tem, kaj pomeni ustvariti projekte strojnega učenja in delati na pobudah za znanost podatkov v smislu končnih ciljev in končnih rezultatov.
Četrti glavni steber učenja dobrega znanstvenika za podatke vključuje delo z ljudmi in zmožnost uporabe podatkov na načine, ki so smiselni drugim.
Dobri znanstveniki podatkov so lahko pripovedovalci - kvantitativni podatki lahko prevedejo v pripovedi in vpoglede. Zato bi morali imeti dobre komunikacijske spretnosti, da lahko svoje delo predstavijo za mizo in ga učinkovito razdelijo med številne zainteresirane strani ali določeno občinstvo. To je nekaj glavnih vrst veščin, ki gradijo dobrega znanstvenika za podatke, ki je pripravljen sodelovati v današnji hitri in hitro napredujoči IT industriji.