V:
Kako se lahko naučim uporabljati Hadoop za analizo velikih podatkov?
A:Programska oprema Apache, znana kot Hadoop, postaja zelo priljubljen vir za obravnavo velikih nizov podatkov. Ta vrsta programske opreme za obdelavo podatkov je bila zgrajena z namenom, da na posebne načine pomaga združevanje podatkov, ki temelji na modelih, ki lahko izboljšajo nekatere vrste podatkovnih projektov. Kljub temu je Hadoop le eno izmed mnogih orodij za ravnanje z velikimi množicami podatkov.
Eden prvih in najosnovnejših načinov, kako se s Hadoopom naučiti o analizi velikih podatkov, je razumevanje nekaterih komponent najvišje ravni Hadoop-a in tega, kar počne. Ti vključujejo Hadoop YARN "platformo za upravljanje virov", ki jo je mogoče uporabiti za nekatere vrste omrežnih nastavitev, kot tudi nabor funkcij Hadoop MapReduce, ki veljajo za velike nabore podatkov. Obstaja tudi Hadoop porazdeljeni datotečni sistem (HDFS), ki pomaga shranjevati podatke v porazdeljenih sistemih, tako da jih je mogoče hitro in učinkovito indeksirati ali pridobiti.
Poleg tega lahko tisti, ki se želijo bolj seznaniti s Hadoopom, pogledajo posamezne objavljene vire za strokovnjake, ki razlagajo programsko opremo na relativni ravni. Ta primer Chrisa Stucchia na osebnem blogu ponuja odličen niz točk o Hadoopu in podatkovni lestvici. Eden osnovnih ukrepov je, da se Hadoop pogosteje uporablja, kot je potrebno, in morda ni najboljša rešitev za posamezen projekt. Pregled tovrstnih virov bo strokovnjakom pomagal, da se bolje seznanijo s podrobnostmi uporabe Hadoopa v katerem koli danem scenariju. Štucio ponuja tudi metafore za povezavo Hadoopovih funkcij s posebnimi fizičnimi nalogami. Tu je primer štetje števila knjig v knjižnici, medtem ko lahko funkcija Hadoop to knjižnico razdeli na razdelke, pri čemer se posamezna števila združijo v en zbirni rezultat podatkov.
Bolj poglobljen način, da lahko strokovnjaki izvedejo več o Hadoopu in njegovi uporabi pri velikih podatkih, je s pomočjo posebnih učnih virov in programov. Na primer, spletno podjetje Cloudera, ugleden ponudnik tečajev na daljavo, ima številne zanimive možnosti glede uporabe Hadoopa in podobnih vrst obdelave podatkov.