Kazalo:
- Kako se je Hadoop začel?
- Kaj je tako pomembno pri Hadoopu?
- Kaj je shema pri branju?
- Kaj je panj?
- Kakšne podatke analizira Hadoop?
- Lahko podate primer resničnega sveta Hadoopa?
- Je Hadoop že zastarel ali samo morfira?
Kaj je Hadoop? To je rumeni slonček igrač. Ni tisto, kar ste pričakovali? Kako je s tem: Doug Cutting - soustvarjalec tega programa z odprtokodno programsko opremo - si je ime izposodil po sinu, ki ga je slučajno poklical njegov igračni slon Hadoop. Na kratko, Hadoop je programski okvir, ki ga je razvila programska fundacija Apache, ki se uporablja za razvoj podatkovno intenzivnega in porazdeljenega računalništva. In ključna sestavina v drugih bralnikih brskalnikov se zdi, da nikoli ne dobijo dovolj: velikih podatkov. Tukaj je sedem stvari, ki jih morate vedeti o tej edinstveni, brezplačno licencirani programski opremi.
Kako se je Hadoop začel?
Pred dvanajstimi leti je Google zgradil platformo za manipulacijo z ogromnimi količinami podatkov, ki jih je zbiral. Tako kot podjetje pogosto počne, je tudi Google svoj dizajn dal na voljo javnosti v obliki dveh prispevkov: Google File System in MapReduce.
Hkrati sta Doug Cutting in Mike Cafarella delala na novem iskalniku Nutch. Oba sta se tudi borila, kako ravnati z velikimi količinami podatkov. Potem sta oba raziskovalca dobila Googleove prispevke. To srečno presečišče je vse spremenilo z uvedbo Cuttinga in Cafarelle v boljši datotečni sistem in način za sledenje podatkov, kar je na koncu vodilo k ustvarjanju Hadoopa.
Kaj je tako pomembno pri Hadoopu?
Danes je zbiranje podatkov lažje kot kdajkoli prej. Ima vse te podatke številne priložnosti, vendar obstajajo tudi izzivi:- Ogromne količine podatkov zahtevajo nove metode obdelave.
- Zajeti podatki so v nestrukturirani obliki.
Nato so se morali spoprijeti z nestrukturiranimi podatki ali podatki v oblikah, ki jih standardni sistemi relacijskih baz podatkov niso mogli obravnavati. Cutting in Cafarella sta Hadoop zasnovala za delo s katero koli vrsto podatkov: strukturiran, nestrukturiran, slike, zvočne datoteke, celo besedilo. Ta bela knjiga Cloudera (Hadoop integrator) pojasnjuje, zakaj je to pomembno:
-
"Hadoop s tem, ko uporablja vse svoje podatke, ne le tiste, ki je v vaših bazah podatkov, odkriva skrite odnose in razkriva odgovore, ki so bili vedno nedosegljivi. Lahko začnete sprejemati več odločitev, ki temeljijo na trdnih podatkih, namesto da bi se zbrali, in poglejte pri celotnih zbirkah podatkov, ne le v vzorcih in povzetkih. "
Kaj je shema pri branju?
Kot smo že omenili, je ena od prednosti Hadoopa njegova sposobnost ravnanja z nestrukturiranimi podatki. V nekem smislu je to "brcanje pločevinke po cesti." Podatki na koncu potrebujejo neko strukturo, da jih lahko analizirajo.
Tu se začne igrati shema ob branju. Pri branju je prikazana shema, v kateri obliki so podatki, kje najti podatke (ne pozabite, da so podatki raztreseni med več strežniki) in kaj je treba storiti s podatki - ni enostavna naloga. Govorilo se je, da za manipuliranje podatkov v sistemu Hadoop potrebujejo veščine poslovnega analitika, statistika in programerja Java. Žal ni veliko ljudi s temi kvalifikacijami.
Kaj je panj?
Če bo Hadoop uspel, je bilo treba delo s podatki poenostaviti. Torej, odprtokodna množica se je lotila dela in ustvarila Pive:-
"Hive ponuja mehanizem za strukturiranje teh podatkov in iskanje podatkov s pomočjo jezika, podobnega SQL-u, imenovanega HiveQL. Hkrati ta jezik omogoča tudi, da tradicionalni programerji zemljevidov / reduktorjev priklopijo svoje prilagojene zemljevide in reduktorje, kadar je neprijetno oz. neučinkovit za izražanje te logike v HiveQL-u. "
Hive omogoča najboljše iz obeh svetov: osebje zbirke podatkov, ki je seznanjeno z ukazi SQL, lahko manipulira s podatki, razvijalci, seznanjeni s shemo pri postopku branja, pa še vedno lahko ustvarijo poizvedbe po meri.
Kakšne podatke analizira Hadoop?
Spletna analitika je prva stvar, ki pride na misel, analiziranje spletnih dnevnikov in spletnega prometa za optimizacijo spletnih mest. Facebook se na primer zagotovo ukvarja s spletno analitiko in s Hadoopom razvršča terabajte podatkov, ki jih podjetje nabira.
Podjetja uporabljajo skupine Hadoop za analizo tveganja, odkrivanje goljufij in segmentacijo na osnovi kupcev. Komunalna podjetja uporabljajo Hadoop za analizo podatkov senzorjev iz svojega električnega omrežja, kar jim omogoča optimizacijo proizvodnje električne energije. Večja podjetja, kot so Target, 3M in Medtronics, uporabljajo Hadoop za optimizacijo distribucije izdelkov, ocene poslovnega tveganja in segmentacije na osnovi kupcev.
V Hadoop se vlagajo tudi univerze. Brad Rubin, izredni profesor na Univerzi St. Thomas podiplomskih programov za programsko opremo, je omenil, da njegovo znanje Hadoop pomaga razvrščati s številnimi količinami podatkov, ki jih zbirajo raziskovalne skupine na univerzi.
Lahko podate primer resničnega sveta Hadoopa?
Eden izmed bolj znanih primerov je TimesMachine. New York Times ima zbirko slik TIFF iz časopisov na celotni strani, z njimi povezane metapodatke in besedila članka od 1851 do 1922, ki znašajo terabajte podatkov. Derek Gottfrid na NYT, ki uporablja sistem EC2 / S3 / Hadoop in specializirano kodo:-
"Zaužili so 405.000 zelo velikih TIFF slik, 3.3 milijona člankov v SGML in 405.000 datotek xml, ki članke preslikajo v pravokotne regije v TIFF-jih. Ti podatki so bili pretvorjeni v bolj prijazne spletu 810.000 slik PNG (sličice in polne slike) in 405.000 datotek JavaScript. "
Z uporabo strežnikov v oblaku spletnih storitev Amazon je Gottfrid omenil, da so lahko v manj kot 36 urah obdelali vse podatke, potrebne za TimesMachine.
Je Hadoop že zastarel ali samo morfira?
Hadoop obstaja že več kot desetletje. Veliko ljudi pravi, da je zastarelo. En strokovnjak, dr. David Rico, je dejal, da "so izdelki IT kratkotrajni. V pasjih letih je Googlovih izdelkov približno 70, Hadoop pa 56."
Morda je nekaj resnice, kar pravi Rico. Kaže, da je Hadoop opravil večjo prenovo. Če želite izvedeti več o tem, me je Rubin povabil na sestanek uporabniške skupine Twin Cities Hadoop, tema pogovora pa je bila Uvod v PREJEM:
-
"Apache Hadoop 2 vključuje nov motor MapReduce, ki ima številne prednosti v primerjavi s prejšnjo implementacijo, vključno z boljšo razširljivostjo in izkoriščenostjo virov. Nova izvedba je zgrajena na splošnem sistemu za upravljanje virov za zagon distribuiranih aplikacij, imenovanega YARN."