Kazalo:
- Kako se uporabljajo veliki podatki
- Kje je resnična vrednost?
- Včasih majhni podatki naredijo večji (in manj drag) učinek
Veliki podatki so splošna beseda, ki se nanaša na obdelavo velikih količin podatkov. Vsi razumemo, da večji kot je obseg podatkov, postane bolj zapleten. Tradicionalne rešitve baz podatkov pogosto ne uspejo pravilno upravljati velikih količin podatkov zaradi svoje zapletenosti in velikosti. Zato je upravljanje velike količine podatkov in pridobivanje resničnega vpogleda zahtevna naloga. Isti koncept vrednosti velja tudi za majhne podatke.
Kako se uporabljajo veliki podatki
Običajne rešitve baz podatkov, zasnovane na konceptu RDBMS, lahko zelo dobro upravljajo transakcijske podatke in se pogosto uporabljajo v različnih aplikacijah. Ko pa gre za obdelavo velikega niza podatkov (podatki, ki so arhivirani in so v terabajtih ali petabajtih), te rešitve baz podatkov pogosto ne uspejo. Ti nabori podatkov so preveliki in se večinoma ne ujemajo v arhitekturo tradicionalnih baz podatkov. V današnjih dneh so veliki podatki postali stroškovno učinkovit pristop pri obdelavi večjih nizov podatkov. Z organizacijskega vidika se uporaba velikih podatkov lahko razdeli na naslednje kategorije, v katerih je resnična vrednost velikih podatkov:- Analitična uporaba
Analitiki velikih podatkov so razkrili številne pomembne skrite vidike podatkov, ki so predragi za obdelavo. Na primer, če moramo preveriti trendno zanimanje študentov za določeno novo temo, lahko to storimo z analizo dnevnih evidenc obiskov in drugih družbenih in geografskih dejstev. Ta dejstva so zajeta v bazi podatkov. Če do teh podatkov ne moremo dostopati učinkovito, ne moremo videti rezultatov.
- Omogoči nove izdelke
V nedavni preteklosti je veliko novih spletnih podjetij, kot je Facebook, začelo uporabljati velike podatke kot rešitev za lansiranje novih izdelkov. Vsi vemo, kako priljubljen je Facebook - uspešno je pripravil visokozmogljivo uporabniško izkušnjo z uporabo velikih podatkov.
Kje je resnična vrednost?
Različne rešitve velikih podatkov se razlikujejo v pristopu, v katerem shranjujejo podatke, vendar na koncu vsi shranjujejo podatke v ravno strukturo datotek. Na splošno je Hadoop sestavljen iz datotečnega sistema in nekaterih abstrakcij podatkov na ravni operacijskega sistema. To vključuje motor MapReduce in distribucijski datotečni sistem Hadoop (HDFS). Preprosta skupina Hadoop vključuje eno glavno vozlišče in več delovnih vozlišč. Glavno vozlišče je sestavljeno iz naslednjega:- Sledilnik opravil
- Sledilnik zaposlitve
- Ime vozlišča
- Podatkovno vozlišče
- Sledilnik opravil
- Podatkovno vozlišče
Nekatere izvedbe imajo samo vozlišče podatkov. Podatkovno vozlišče je dejansko območje, na katerem ležijo podatki. HDFS hrani velike datoteke (v območju od terabajtov do petabajtov), razporejene na več strojih. Zanesljivost podatkov na vsakem vozlišču je dosežena s kopiranjem podatkov v vse gostitelje. Tako so podatki na voljo tudi, ko je eno od vozlišč navzdol. To pomaga pri hitrejšem odzivu na poizvedbe. Ta koncept je zelo uporaben v primeru ogromnih aplikacij, kot je Facebook. Kot uporabnik dobimo odziv na našo prošnjo za klepet, na primer skoraj takoj. Razmislite o scenariju, kjer mora uporabnik med klepetom dolgo čakati. Če sporočilo in nadaljnji odgovor ne bosta dostavljena takoj, koliko ljudi bo dejansko uporabljalo ta klepetalna orodja?
Če se vrnemo k implementaciji Facebooka, če podatki ne bodo kopirani v grozdih, ne bo mogoče imeti privlačne izvedbe. Hadoop podatke razdeli po strojih v večji grozdi in shrani datoteke v zaporedje blokov. Ti bloki so enake velikosti, razen zadnjega. Velikost bloka in faktorja podvajanja lahko prilagodimo glede na potrebe. Datoteke v HDFS dosledno upoštevajo pristop enkrat za pisanje, zato jih lahko hkrati zapisuje ali ureja le en uporabnik. Odločitve o podvajanju blokov se sprejmejo s pomočjo vozlišča. Imensko vozlišče sprejema poročila in odzive impulzov iz vsakega od podatkovnih vozlišč. Impulzni odzivi zagotavljajo razpoložljivost ustreznega vozlišča podatkov. Poročilo vsebuje podrobnosti o blokih na podatkovnem vozlišču.
Podoben koncept distribucije uporablja tudi druga implementacija velikih podatkov, Cassandra. Cassandra razdeli podatke na podlagi geografske lege. Podatki so torej v Cassandri ločeni na podlagi geografske lege uporabe podatkov.
Včasih majhni podatki naredijo večji (in manj drag) učinek
Kot pravi Rufus Pollock iz Fundacije Open Knowledge, nima smisla ustvarjati hype okoli velikih podatkov, medtem ko majhni podatki še vedno veljajo za resnično vrednost.
Kot že ime pove, so majhni podatki niz podatkov, usmerjen iz večjega niza podatkov. Majhni podatki nameravajo osredotočiti pozornost na uporabo podatkov, prav tako pa želijo preprečiti trend premika k velikim podatkom. Pristop z majhnimi podatki pomaga pri zbiranju podatkov na podlagi posebnih zahtev z manj truda. Kot rezultat, je učinkovitejša poslovna praksa pri izvajanju poslovne inteligence.
V bistvu se koncept majhnih podatkov vrti okoli podjetij, ki zahtevajo rezultate, ki zahtevajo nadaljnje ukrepe. Te rezultate je treba hitro najti in poznejše ukrepe je treba tudi takoj izvesti. Tako lahko odpravimo vrste sistemov, ki se običajno uporabljajo v veliki analizi podatkov.
Na splošno, če upoštevamo nekatere posebne sisteme, ki so potrebni za pridobivanje velikih podatkov, lahko podjetje investira v postavitev veliko shranjevanja strežnikov, uporabi sofisticirane strežnike višjega cenovnega razreda in najnovejše aplikacije za rudarjenje podatkov za obdelavo različnih bitov podatkov, vključno z datumi in urami uporabniških dejanj, demografskimi in drugimi informacijami. Celoten nabor podatkov se preseli v osrednje podatkovno skladišče, kjer se za razvrščanje in obdelavo podatkov v obliki podrobnih poročil uporabljajo zapleteni algoritmi.
Vsi vemo, da so te rešitve koristile mnogim podjetjem v smislu razširljivosti in razpoložljivosti; obstajajo organizacije, ki ugotavljajo, da je za sprejetje teh pristopov potrebno veliko truda. Res je tudi, da so v nekaterih primerih podobni rezultati doseženi z uporabo manj robustne strategije rudarjenja podatkov.
Majhni podatki omogočajo organizacijam, da se umaknejo od obsedenosti z najnovejšimi in najnovejšimi tehnologijami, ki podpirajo bolj sofisticirane poslovne procese. Podjetja, ki promovirajo majhne podatke, trdijo, da je s poslovnega vidika pomembno, da učinkovito uporabijo svoje vire, da se lahko v določeni meri izognemo porabi tehnologije.
Veliko smo razpravljali o velikih podatkih in resničnosti majhnih podatkov, vendar moramo razumeti, da je izbira pravilne platforme (velikih podatkov ali majhnih podatkov) za pravilno uporabo najpomembnejši del celotne vaje. In resnica je, da čeprav veliki podatki lahko prinesejo veliko koristi, ni vedno najbolje.