Kazalo:
- Mit: Vsi smo pred nami pri sprejemanju velikih podatkov.
- Mit: Imamo toliko podatkov; ne rabimo skrbeti za vsako majhno napako v podatkih.
- Mit: Velika podatkovna tehnologija bo odpravila potrebo po integraciji podatkov.
- Mit: Uporaba podatkovnega skladišča za napredno analitiko je nesmiselna.
- Mit: Podatkovna jezera bodo nadomestila podatkovno skladišče.
- Velika podatkovna dela - nove metode manipulacije podatkov morda ne
Še v maju 2014 je Forrester Research izdal dve poročili, v katerih je sklepal o nekaterih hype okoli velikih podatkov. Raziskovalno podjetje je anketiralo več kot 250 voditeljev trženja in poslovnega razvoja. Kot trdijo avtorji poročila, je velika retorika podatkov ves čas na visoki ravni, proizvajalci tehnologije pa izdelke, ki se zdijo neverjetni, trdijo.
Gartner se strinja s podjetjem Forrester Research; velik hype obdaja velike podatke. V poročilu iz septembra 2014 Gartner razgrne pet največjih mitov o podatkih, analitiki Gartnerja pa ponujajo svoje mnenje o tem, kaj je narobe razumljeno glede velikih podatkov in njihove manipulacije. Kateri so največji miti velikih podatkov? Poglejmo.
Mit: Vsi smo pred nami pri sprejemanju velikih podatkov.
Gartner pravi, da je zanimanje za velike podatke ves čas zelo veliko. Kljub temu ima slabih 13 odstotkov vprašanih delovnih sistemov. Razlog: večina podjetij še ni ugotovila, kako pridobiti kakršno koli vrednost iz velikih shramb podatkov. Tu je Gartnerjeva raziskava bolj optimistična kot poročilo Forresterja, ki je ugotovilo, da je le 9 odstotkov udeležencev ankete povedalo, da nameravajo v prihodnjem letu uvesti tehnologije velikih podatkov. (Veliki podatki lahko ponujajo veliko. Več o tem v 5 problemih iz resničnega sveta Veliki podatki se lahko rešijo.)Mit: Imamo toliko podatkov; ne rabimo skrbeti za vsako majhno napako v podatkih.
Gartner je zaskrbljen zaradi revščine, ki jo imamo ljudje: "Toliko imamo, malo, kar je slabo, ne bo pomembno." Ted Friedman, podpredsednik in ugledni analitik pri Gartnerju, meni, da je to napačen pogled na situacijo.
"V resnici, čeprav ima vsaka posamezna pomanjkljivost veliko manjši vpliv na celoten nabor podatkov kot takrat, ko je bilo manj podatkov, je več pomanjkljivosti kot prej, ker je več podatkov, " je dejal Friedman. "Zato splošni vpliv nekakovostnih podatkov na celoten nabor podatkov ostaja enak."
Friedman dodaja še en razlog za zaskrbljenost. Zajem velikih podatkov pogosto vključuje podatke zunaj podjetja, ki so torej neznane strukture in izvora. To povečuje možnost napak.
Mit: Velika podatkovna tehnologija bo odpravila potrebo po integraciji podatkov.
Obstajata dve ključni strategiji analize podatkov, ki se lahko uporabita za velike podatke: "shema ob pisanju" ali "shema ob branju". Do nedavnega je bila edina metoda uporabljena shema za pisanje. Shema on read je trenutna norost upravljanja z bazami podatkov. Za razliko od sheme pri pisanju, ki zahteva strukturiran format, se podatki naložijo v zbirke podatkov, ki jih berejo v shemi, v neobdelani obliki. Nato razvijalci - z nestrukturiranimi platformami baz podatkov, kot je Hadoop - ločijo različne podatke v uporabno obliko. Shema za branje ima očitne prednosti, vendar, kot omenja Gartner, se mora v nekem trenutku zgoditi integracija podatkov.Mit: Uporaba podatkovnega skladišča za napredno analitiko je nesmiselna.
Poraba časa za ustvarjanje podatkovnega skladišča se zdi mnogim upravljavcem informacij nesmiselna, zlasti kadar so na novo zajeti podatki drugačni od tistih v skladišču podatkov. Vendar Gartner ponovno opozarja, da bo tudi napredna analitika podatkov uporabila skladišča podatkov in nove podatke, kar pomeni, da morajo integratorji podatkov:- Izboljšajte nove vrste podatkov, da bodo primerni za analizo
- Odločite se, kateri podatki so ustrezni, in raven kakovosti podatkov
- Določite, kako združiti podatke
- Razumejte, da se lahko izboljšava podatkov zgodi tudi v drugih krajih, razen v skladišču podatkov
Mit: Podatkovna jezera bodo nadomestila podatkovno skladišče.
Podatkovna jezera so skladišča različnih podatkov v nasprotju s skladišči podatkov, v katerih so podatki strukturirani. Ustvarjanje podatkovnega jezera zahteva malo vnaprej (ni treba oblikovati podatkov) v primerjavi s podatkovnimi skladišči, zato so podatkovna jezera zanimiva.
Gartner poudarja, da je smisel imeti podatke za manipuliranje z zajetimi podatki za informirano odločanje. Poleg tega je uporaba (nekoliko nedokazanih) podatkovnih jezer za lažje odločanje problematična.
"Skladišča podatkov že imajo zmogljivosti za podporo najrazličnejšim uporabnikom v celotni organizaciji, " je dejal Nick Heudecker, direktor raziskav pri Gartnerju. "Voditeljem za upravljanje informacij ni treba čakati, da se podatki pojavijo." (Več o sprejemanju velikih podatkov o 7 stvareh, ki jih morate vedeti o velikih podatkih pred sprejetjem.)
Velika podatkovna dela - nove metode manipulacije podatkov morda ne
Razlog, ko je Gartner dejal, da so "miti o največjih podatkih" namesto "miti o velikih podatkih", postane jasen, ko je prebral poročilo. Gartner ne zajema velikih podatkov. Gartner je naklonjen tistim, ki menijo, da so novejše metode upravljanja velikih podatkov pripravljene na "prime time".