Kazalo:
Vsi govorijo o Hadoopu, vroči novi tehnologiji, ki je med razvijalci zelo cenjena in bi lahko (spet) spremenila svet. Toda le kaj je to sploh? Ali je to programski jezik? Baza podatkov? Sistem za predelavo? Indijski čaj prijeten?
Širok odgovor: Hadoop je vse to (razen čaja prijeten) in še več. Gre za programsko knjižnico, ki ponuja programski okvir za poceni, uporabno obdelavo nove sodobne glasbe: velikih podatkov.
Od kod Hadoop?
Apache Hadoop je del fundacijskega projekta neprofitne organizacije Apache Software Foundation, katere poslanstvo je "zagotavljanje programske opreme za javno dobro." Tako je knjižnica Hadoop brezplačna, odprtokodna programska oprema, ki je na voljo vsem razvijalcem.
Osnovno tehnologijo, ki poganja Hadoop, je dejansko izumil Google. Že v zgodnjih dneh je ne ravno velikanski iskalnik potreboval način, da indeksira ogromno količino podatkov, ki so jih zbirali z interneta, in jih spremeni v pomembne, ustrezne rezultate za svoje uporabnike. Ker na trgu ni na voljo ničesar, kar bi lahko izpolnilo njihove zahteve, je Google zgradil svojo platformo.
Te novosti so bile objavljene v odprtokodnem projektu Nutch, ki ga je Hadoop pozneje uporabil kot temelj. Hadoop v osnovi uporablja moč Googla pri velikih podatkih na način, ki je dostopen za podjetja vseh velikosti.
Kako deluje Hadoop?
Kot smo že omenili, Hadoop ni ena stvar - to je veliko stvari. Hadoop programska knjižnica je sestavljena iz štirih primarnih delov (modulov) in številnih dodatkov (npr. Podatkovnih baz in programskih jezikov), ki izboljšujejo njeno uporabo v resničnem svetu. Štirje moduli so:- Hadoop Common: To je zbirka skupnih pripomočkov (skupna knjižnica), ki podpira Hadoop module.
- Hadoop porazdeljeni datotečni sistem (HDFS): Robustni porazdeljeni datotečni sistem brez omejitev za shranjene podatke (kar pomeni, da so podatki lahko strukturirani ali nestrukturirani in brez sheme, kjer bo veliko DFS shranilo le strukturirane podatke), ki omogoča dostop do visoke hitrosti z odvečnostjo ( HDFS omogoča shranjevanje podatkov na več strojih - torej, če en stroj odpove, se razpoložljivost vzdržuje na drugih strojih).
- Hadoop Preja: Ta okvir je odgovoren za razporejanje delovnih mest in upravljanje virov grozdov; zagotavlja, da se podatki dovolj razširijo na več strojev, da se ohrani odveč. YARN je modul, s katerim je Hadoop cenovno ugoden in stroškovno učinkovit način za obdelavo velikih podatkov.
- Hadoop MapReduce: Ta sistem na osnovi YARN, zgrajen na Googlovi tehnologiji, izvaja vzporedno obdelavo velikih nizov podatkov (strukturiranih in nestrukturiranih). MapReduce lahko najdemo tudi v večini današnjih velikih okvirov za obdelavo podatkov, vključno z bazami MPP in NoSQL.
Strojna oprema, ki zmore količino procesne moči, potrebne za delo z velikimi podatki, je draga, milo rečeno. To je resnična novost Hadoopa: zmožnost razbijanja ogromnih količin procesne moči na več manjših strojev, od katerih ima vsak svoje lokalizirano računanje in shranjevanje, skupaj z vgrajeno odvečnostjo na ravni aplikacije, da prepreči napake.
Kaj počne Hadoop?
Preprosto rečeno, Hadoop omogoča velike podatke dostopne in uporabne za vse.
Pred Hadoopom so podjetja, ki uporabljajo velike podatke, to večinoma storila z relacijskimi bazami podatkov in podjetniškimi skladišči podatkov (ki uporabljajo velike količine drage strojne opreme). Čeprav so ta orodja odlična za obdelavo strukturiranih podatkov - to so podatki, ki so že razvrščeni in organizirani na obvladljiv način - je zmogljivost za obdelavo nestrukturiranih podatkov izjemno omejena, toliko, da je praktično ni bilo. Da bi bili uporabni, je bilo treba podatke najprej strukturirati tako, da so se lepo ujemali v tabele.
Okvir Hadoop spreminja to zahtevo in to poceni. S Hadoopom lahko z običajnimi (blagovnimi) strežniki obdelujemo ogromne količine podatkov od 10 do 100 gigabajtov in več, strukturirane in nestrukturirane.
Hadoop ponuja potencialne velike podatkovne aplikacije za podjetja vseh velikosti v vseh panogah. Okvir z odprtim kodom omogoča finančnim podjetjem, da ustvarijo sofisticirane modele za ocenjevanje portfelja in analizo tveganj, ali pa spletni prodajalci, da natančno prilagodijo svoje iskalne odgovore in usmerijo stranke k izdelkom, ki jih bolj verjetno kupujejo.
Pri Hadoopu so možnosti resnično neomejene.