Domov Zvok Hadoop analitika: ni tako enostavno v več virih podatkov

Hadoop analitika: ni tako enostavno v več virih podatkov

Kazalo:

Anonim

Hadoop je odličen kraj za nalaganje podatkov za obdelavo analitike ali za modeliranje večjih količin enega samega vira podatkov, ki v obstoječih sistemih ni mogoče. Ker pa podjetja v Hadoop prinašajo podatke iz številnih virov, je vse več povpraševanja po analizi podatkov v različnih virih, kar je izredno težko doseči. Ta objava je prva v tridelni seriji, ki razlaga težave, s katerimi se organizacije srečujejo, ko poskušajo analizirati različne vire podatkov in vrste znotraj Hadoopa, in kako rešiti te izzive. Današnji post se osredotoča na težave, ki se pojavljajo pri združevanju več notranjih virov. Naslednji dve objavi pojasnjujeta, zakaj se ti problemi povečujejo v zapletenosti, saj se dodajajo zunanji viri podatkov in kako novi pristopi pomagajo pri njihovem reševanju.

Podatki iz različnih virov, ki jih je težko povezati in preslikati

Podatki iz različnih virov imajo različne strukture, zaradi katerih je težko povezati in preslikati vrste podatkov skupaj, celo podatke iz notranjih virov. Združevanje podatkov je lahko še posebej težko, če imajo stranke več številk računov ali je organizacija pridobila ali se združila z drugimi podjetji. V zadnjih nekaj letih so nekatere organizacije poskušale s pomočjo odkrivanja podatkov ali aplikacij za znanost podatkov analizirati podatke iz več virov, shranjenih v Hadoopu. Ta pristop je problematičen, saj vključuje veliko ugibanja: uporabniki se morajo odločiti, katere tuje ključe uporabiti za povezavo različnih virov podatkov in predpostavke pri ustvarjanju prekrivkov podatkovnega modela. Ta ugibanja je težko preizkusiti in so pogosto napačna, če se uporabljajo v merilu, kar vodi v napačno analizo podatkov in nezaupanje virov.

Strokovnjaki Hadoop poskušajo skupaj združiti podatke

Zato se organizacije, ki želijo analizirati podatke v različnih virih podatkov, zatečejo k zaposlovanju strokovnjakov Hadoop, ki bodo ustvarili prilagojene skripte, specifične za vire, za združevanje podatkovnih nizov skupaj. Ti strokovnjaki za Hadoop običajno niso strokovnjaki za integracijo podatkov ali reševanje entitet, vendar se po svojih najboljših močeh trudijo rešiti takojšnje potrebe organizacije. Ti strokovnjaki običajno uporabljajo Pig ali Java za pisanje trdnih in hitrih pravil, ki določajo, kako združiti strukturirane podatke iz določenih virov, npr. Ujemanje zapisov na podlagi številke računa. Ko je napisan skript za dva vira, če je treba dodati še tretji vir, je treba prvi skript vrgel in nov skript, zasnovan tako, da združuje tri posebne vire. Enako se zgodi, če dodamo drug vir in tako naprej. Ta pristop ni samo neučinkovit, ampak tudi ne uspe, kadar se uporablja v merilu, slabo obravnava robne primere, lahko povzroči veliko število podvojenih zapisov in pogosto združi številne zapise, ki jih ne bi smeli kombinirati.

Hadoop analitika: ni tako enostavno v več virih podatkov