Podatki, veliki in majhni: kje je prava vrednost?

2026

Kazalo:

Kako se uporabljajo veliki podatki
Kje je resnična vrednost?
Včasih majhni podatki naredijo večji (in manj drag) učinek

Veliki podatki so splošna beseda, ki se nanaša na obdelavo velikih količin podatkov. Vsi razumemo, da večji kot je obseg podatkov, postane bolj zapleten. Tradicionalne rešitve baz podatkov pogosto ne uspejo pravilno upravljati velikih količin podatkov zaradi svoje zapletenosti in velikosti. Zato je upravljanje velike količine podatkov in pridobivanje resničnega vpogleda zahtevna naloga. Isti koncept vrednosti velja tudi za majhne podatke.

Kako se uporabljajo veliki podatki

Običajne rešitve baz podatkov, zasnovane na konceptu RDBMS, lahko zelo dobro upravljajo transakcijske podatke in se pogosto uporabljajo v različnih aplikacijah. Ko pa gre za obdelavo velikega niza podatkov (podatki, ki so arhivirani in so v terabajtih ali petabajtih), te rešitve baz podatkov pogosto ne uspejo. Ti nabori podatkov so preveliki in se večinoma ne ujemajo v arhitekturo tradicionalnih baz podatkov. V današnjih dneh so veliki podatki postali stroškovno učinkovit pristop pri obdelavi večjih nizov podatkov. Z organizacijskega vidika se uporaba velikih podatkov lahko razdeli na naslednje kategorije, v katerih je resnična vrednost velikih podatkov:

Analitična uporaba

Analitiki velikih podatkov so razkrili številne pomembne skrite vidike podatkov, ki so predragi za obdelavo. Na primer, če moramo preveriti trendno zanimanje študentov za določeno novo temo, lahko to storimo z analizo dnevnih evidenc obiskov in drugih družbenih in geografskih dejstev. Ta dejstva so zajeta v bazi podatkov. Če do teh podatkov ne moremo dostopati učinkovito, ne moremo videti rezultatov.

Omogoči nove izdelke

V nedavni preteklosti je veliko novih spletnih podjetij, kot je Facebook, začelo uporabljati velike podatke kot rešitev za lansiranje novih izdelkov. Vsi vemo, kako priljubljen je Facebook - uspešno je pripravil visokozmogljivo uporabniško izkušnjo z uporabo velikih podatkov.

Kje je resnična vrednost?

Različne rešitve velikih podatkov se razlikujejo v pristopu, v katerem shranjujejo podatke, vendar na koncu vsi shranjujejo podatke v ravno strukturo datotek. Na splošno je Hadoop sestavljen iz datotečnega sistema in nekaterih abstrakcij podatkov na ravni operacijskega sistema. To vključuje motor MapReduce in distribucijski datotečni sistem Hadoop (HDFS). Preprosta skupina Hadoop vključuje eno glavno vozlišče in več delovnih vozlišč. Glavno vozlišče je sestavljeno iz naslednjega:

Sledilnik opravil
Sledilnik zaposlitve
Ime vozlišča
Podatkovno vozlišče

Delavsko vozlišče je sestavljeno iz:

Sledilnik opravil
Podatkovno vozlišče

Nekatere izvedbe imajo samo vozlišče podatkov. Podatkovno vozlišče je dejansko območje, na katerem ležijo podatki. HDFS hrani velike datoteke (v območju od terabajtov do petabajtov), razporejene na več strojih. Zanesljivost podatkov na vsakem vozlišču je dosežena s kopiranjem podatkov v vse gostitelje. Tako so podatki na voljo tudi, ko je eno od vozlišč navzdol. To pomaga pri hitrejšem odzivu na poizvedbe. Ta koncept je zelo uporaben v primeru ogromnih aplikacij, kot je Facebook. Kot uporabnik dobimo odziv na našo prošnjo za klepet, na primer skoraj takoj. Razmislite o scenariju, kjer mora uporabnik med klepetom dolgo čakati. Če sporočilo in nadaljnji odgovor ne bosta dostavljena takoj, koliko ljudi bo dejansko uporabljalo ta klepetalna orodja?

Če se vrnemo k implementaciji Facebooka, če podatki ne bodo kopirani v grozdih, ne bo mogoče imeti privlačne izvedbe. Hadoop podatke razdeli po strojih v večji grozdi in shrani datoteke v zaporedje blokov. Ti bloki so enake velikosti, razen zadnjega. Velikost bloka in faktorja podvajanja lahko prilagodimo glede na potrebe. Datoteke v HDFS dosledno upoštevajo pristop enkrat za pisanje, zato jih lahko hkrati zapisuje ali ureja le en uporabnik. Odločitve o podvajanju blokov se sprejmejo s pomočjo vozlišča. Imensko vozlišče sprejema poročila in odzive impulzov iz vsakega od podatkovnih vozlišč. Impulzni odzivi zagotavljajo razpoložljivost ustreznega vozlišča podatkov. Poročilo vsebuje podrobnosti o blokih na podatkovnem vozlišču.

Podoben koncept distribucije uporablja tudi druga implementacija velikih podatkov, Cassandra. Cassandra razdeli podatke na podlagi geografske lege. Podatki so torej v Cassandri ločeni na podlagi geografske lege uporabe podatkov.

Včasih majhni podatki naredijo večji (in manj drag) učinek

Kot pravi Rufus Pollock iz Fundacije Open Knowledge, nima smisla ustvarjati hype okoli velikih podatkov, medtem ko majhni podatki še vedno veljajo za resnično vrednost.

Kot že ime pove, so majhni podatki niz podatkov, usmerjen iz večjega niza podatkov. Majhni podatki nameravajo osredotočiti pozornost na uporabo podatkov, prav tako pa želijo preprečiti trend premika k velikim podatkom. Pristop z majhnimi podatki pomaga pri zbiranju podatkov na podlagi posebnih zahtev z manj truda. Kot rezultat, je učinkovitejša poslovna praksa pri izvajanju poslovne inteligence.

V bistvu se koncept majhnih podatkov vrti okoli podjetij, ki zahtevajo rezultate, ki zahtevajo nadaljnje ukrepe. Te rezultate je treba hitro najti in poznejše ukrepe je treba tudi takoj izvesti. Tako lahko odpravimo vrste sistemov, ki se običajno uporabljajo v veliki analizi podatkov.

Na splošno, če upoštevamo nekatere posebne sisteme, ki so potrebni za pridobivanje velikih podatkov, lahko podjetje investira v postavitev veliko shranjevanja strežnikov, uporabi sofisticirane strežnike višjega cenovnega razreda in najnovejše aplikacije za rudarjenje podatkov za obdelavo različnih bitov podatkov, vključno z datumi in urami uporabniških dejanj, demografskimi in drugimi informacijami. Celoten nabor podatkov se preseli v osrednje podatkovno skladišče, kjer se za razvrščanje in obdelavo podatkov v obliki podrobnih poročil uporabljajo zapleteni algoritmi.

Vsi vemo, da so te rešitve koristile mnogim podjetjem v smislu razširljivosti in razpoložljivosti; obstajajo organizacije, ki ugotavljajo, da je za sprejetje teh pristopov potrebno veliko truda. Res je tudi, da so v nekaterih primerih podobni rezultati doseženi z uporabo manj robustne strategije rudarjenja podatkov.

Majhni podatki omogočajo organizacijam, da se umaknejo od obsedenosti z najnovejšimi in najnovejšimi tehnologijami, ki podpirajo bolj sofisticirane poslovne procese. Podjetja, ki promovirajo majhne podatke, trdijo, da je s poslovnega vidika pomembno, da učinkovito uporabijo svoje vire, da se lahko v določeni meri izognemo porabi tehnologije.

Veliko smo razpravljali o velikih podatkih in resničnosti majhnih podatkov, vendar moramo razumeti, da je izbira pravilne platforme (velikih podatkov ali majhnih podatkov) za pravilno uporabo najpomembnejši del celotne vaje. In resnica je, da čeprav veliki podatki lahko prinesejo veliko koristi, ni vedno najbolje.

Podatki, veliki in majhni: kje je prava vrednost?

Kazalo:

Kako se uporabljajo veliki podatki

Kje je resnična vrednost?

Včasih majhni podatki naredijo večji (in manj drag) učinek

Podatki poškodujejo - veliki podatki popolnoma pokvarijo

Vzemite to, veliki podatki! zakaj lahko majhni podatki spakirajo večji udarec

Kaj so majhni podatki? - definicija iz tehopedije

Izbira urednika

Kaj je goljufija zaradi internetnega protokola (foip)? - definicija iz tehopedije

Kaj je pogon DVD-RAM? - definicija iz tehopedije

Kaj je dvorak tipkovnica? - definicija iz tehopedije

Kaj je elektrostatični izpust (esd)? - definicija iz tehopedije

Izbira urednika

Kaj je okvir politike pošiljatelja (spf)? - definicija iz tehopedije

Kaj je neizterljiva napaka? - definicija iz tehopedije

Kaj je uporabniški račun? - definicija iz tehopedije

Kaj je zaščitni kabel z zaskočenim zasukom (utp)? - definicija iz tehopedije

Izbira urednika

Kaj je zdravi svet? - definicija iz tehopedije

Kaj je paketni analizator? - definicija iz tehopedije

Kaj je napredna delovna miza za programiranje poslovnih aplikacij (abap)? - definicija iz tehopedije

Kaj je supernet? - definicija iz tehopedije

Izbira urednika

Kaj je blu pospešek? - definicija iz tehopedije

Kaj je visoko dinamično območje (hdr)? - definicija iz tehopedije

Kaj je elektromagnetni impulz (emp)? - definicija iz tehopedije

Kaj je kriptovaluta? - definicija iz tehopedije

Izbira urednika

Kaj je internet merjenje? - definicija iz tehopedije

Kaj je upravljanje z losi? - definicija iz tehopedije

Kaj je kaizen? - definicija iz tehopedije

Kaj je partnerski program? - definicija iz tehopedije

Priljubljene kategorije