Avtor osebja Techopedia, 22. junij 2016
Odvzem: Voditeljica Rebecca Jozwiak govori o prednostih katalogov s podatki z Dez Blanchfield, Robin Bloor in Davidom Crawfordom.
Za ogled videoposnetka se morate registrirati za ta dogodek. Za ogled videoposnetka se registrirajte.
Rebecca Jozwiak: Dame in gospodje, pozdravljeni in dobrodošli v podjetju Hot Technologies 2016. Danes imamo "Moč sugestije: kako katalog podatkov omogoča analitikom." Jaz sem vaša gostiteljica Rebecca Jozwiak, ki izpolnjuje našega običajnega gostitelja Erica Kavanagh danes, medtem ko potuje po svetu, zato hvala, da ste se nam pridružili. Letos je vroče, v Teksasu ni samo vroče, kjer sem, ampak povsod je vroče. Prihaja eksplozija vseh vrst novih tehnologij. Imamo IoT, pretakanje podatkov, sprejetje v oblaku, Hadoop še naprej dozoreva in je sprejet. Imamo avtomatizacijo, strojno učenje in vse te stvari seveda podčrtajo podatki. In podjetja postajajo vse več podatkov, ki jih poganja dan. In seveda, bistvo tega je, da pripeljete do znanja in odkrivanja in, veste, boljše odločitve. Da pa iz podatkov resnično pridobite največjo vrednost, je do tega enostavno priti. Če ga boste držali zaprtega ali zakopanega ali v možganih nekaj ljudi v podjetju, to podjetju kot celoti ne bo prineslo veliko dobrega.
In nekako sem razmišljal o katalogizaciji podatkov in o razmišljanju o knjižnicah, kamor ste že zdavnaj odšli, če bi morali kaj poiskati, če bi morali raziskati temo ali poiskati nekaj informacij, ste šli v knjižnico, in seveda ste šli v katalog kartic, ali obrtniška gospa, ki je delala tam. Bilo pa je tudi zabavno, da se nekako sprehajamo naokoli, če bi le radi pogledali in prepričani, da boste morda odkrili kaj čednega, boste morda izvedeli nekaj zanimivih dejstev, ki jih niste poznali, a če bi resnično morali kaj najti in vedeli ste, kaj iščete, potrebovali ste katalog kartic, podjetniški ekvivalent pa je seveda katalog podatkov, s pomočjo katerega lahko naši uporabniki osvetlijo vse podatke, da lahko obogatijo, odkrijejo, delijo, porabijo in resnično pomagajo ljudje hitreje in lažje pridejo do podatkov.
Danes imamo Deza Blanchfielda, našega znanstvenika za podatke, in imamo zdravnika Robina Bloorja, našega glavnega analitika, Davida Crawforda iz Alationa, ki bo govoril o zgodbi katalogiziranja podatkov svojega podjetja, ampak najprej vodili bomo z Dezom. Dez, žogico ti prenašam in tla so tvoja.
Dez Blanchfield: Hvala, hvala, ker ste me danes sprejeli . To vprašanje me zelo zanima, saj skoraj vsaka organizacija, na katero naletim v vsakodnevno delo, se mi zdi popolnoma enaka zadeva, o kateri smo zelo na kratko govorili v natečaju pred nastopom, in to je to večina organizacij, ki poslujejo že več kot nekaj let, ima obilico podatkov pokopanih okoli organizacije, različnih formatov, pravzaprav imam stranke, ki imajo nabore podatkov, ki se vračajo v Lotus Notes, baze podatkov, ki še vedno delujejo v nekaterih primeri kot njihovi psevdo interneti, in vsi se srečujejo s tem izzivom, da dejansko najdejo, kje so njihovi podatki, in kako do njih dostopati, kdo jim omogočiti dostop, kdaj zagotoviti dostop do njih in kako samo kataloga in kako ga priti do mesta, kjer lahko vsakdo: A) zavedajte se, kaj je tam in kaj je v njem, in B), kako do njega dostopati in ga uporabljati. In eden največjih izzivov je seveda iskanje, drugi velik izziv pa je vedeti, kaj je tam in kako do njega dostopati.
Mogoče vem, da imam na desetine baz podatkov, toda v resnici ne vem, kaj je tam ali kako najti, kaj je tam, in tako nenehno, kot odkrivamo zdaj v podatkih pred prikazovanjem, hoditi po pisarni in postavljati vprašanja ter kričati po kubičnih stenah in preizkusiti in ugotoviti, pogosto je moja izkušnja, boste morda celo opazili, da se sprehajate pred recepcijo, na recepciji in sprašujete, če kdo ve, kdo greš govoriti. Velikokrat ne gre vedno za ljudi iz IT-ja, ker se ne zavedajo nabora podatkov, ker ga je nekdo pravkar ustvaril, in lahko je nekaj preprostega - pogosto bomo našli takšen projekt, ki stoji v IT okolju in vodja projektov je uporabil preglednico vseh stvari in pridobil je ogromno dragocenih informacij o sredstvih, kontekstu in imenih, in če tega projekta ne poznate in ne poznate te osebe, te informacije preprosto ne najdete. Preprosto ni na voljo in morate dobiti to prvotno datoteko.
Obstaja besedna zveza, ki se v zvezi s podatki skriva, in s tem se ne strinjam nujno, toda mislim, da je to malo luštno in to je, da nekateri ljudje mislijo, da so podatki novo olje, in jaz sem zagotovo bomo to pokrili tudi v nekem vidiku, kasneje danes. Vendar sem opazil, da je gotovo del te preobrazbe, da so organizacije podjetij, ki so se naučile ceniti svoje podatke, pridobile pomembne prednosti pred svojimi konkurenti.
Pred približno petimi ali šestimi leti je IBM objavil zanimiv prispevek in raziskali približno 4000 podjetij tukaj v Avstraliji in vzeli vse podatke, vse podatke o uspešnosti, vse podatke o financah in jih skupaj sestavili v vrelo posodo in nato ga poslali na avstralsko ekonomsko šolo in tam so dejansko začeli skupni trend, in to je, da so podjetja, ki so s finančnimi sredstvi neizogibno pridobila takšno konkurenčno prednost pred svojimi vrstniki in konkurenti, kot da njihovi konkurenti skoraj nikoli ne dohitijo, in mislim, da to je zdaj zelo slučaj s podatki, da smo videli, kaj ljudje imenujejo digitalna transformacija, kjer organizacije, ki so jasno ugotovile, kako najti podatke, ki jih imajo, da jih dajo na voljo in jih dajo na voljo v zelo enostavno potrošnem modo na organizacijo, ne da bi vedno vedeli, zakaj jo organizacija morda potrebuje, in pridobili pomembno prednost pred konkurenti.
Na tem diapozitivu imam nekaj primerov, ki jih lahko vidite. Moje mnenje je, da po mojem mnenju obsežne motnje v skoraj vseh panožnih panogah poganjajo podatki, in če se sedanji trendi karkoli dogajajo, menim, da smo res šele dobili začeli, ker ko se dolgoletne znamke končno zbudijo, kaj to pomeni in vstopijo v igro, bodo v igro vstopile na debelo. Ko nekateri glavni trgovci na drobno, ki imajo gore podatkov, začnejo uporabljati zgodovinsko analizo podatkov, če sploh vedo, da obstajajo, se bodo nekateri igralci na spletu oglasili.
Toda pri mnogih od teh blagovnih znamk mislim, da imamo Uberja, ki je največja taksi družba na svetu. Nimajo nobenih taksijev, kaj je tisto, kar jih naredi čarobne, kakšni so njihovi podatki? Airbnb, največji ponudnik nastanitve, imamo WeChat, največje telefonsko podjetje na svetu, vendar nimajo dejanske infrastrukture in nobenih telefonov, nobenih telefonskih linij. Alibaba, največji prodajalec na svetu, nima pa nobenega od zalog. Facebook, največje besedno podjetje v besedi. Mislim, da so imeli na koncu že 1, 4 milijarde aktivnih uporabnikov podatkov, kar je zelo močna številka. To ni nikjer v bližini - mislim, da je nekdo trdil, da je četrtina planeta pravzaprav vsak dan tam, in vendar je tu ponudnik vsebin, ki vsebine dejansko ne ustvari, vsi podatki, ki jih služijo, ne ustvarijo oni, temveč ustvarijo s strani njihovih naročnikov in ta model vsi poznamo.
Družba One, za katero morda ali niste slišali, je lokalna blagovna znamka, v nekaterih državah mislim, da gre za banko, ki dejansko posoja medsebojno posojanje, torej z drugimi besedami, nima denarja. Vse, kar počne, je, da upravlja transakcije in podatki so pod njimi. Netflix, vsi smo zelo, zelo dobro seznanjeni s tem. Tu je zanimiva enoprostornica. Ko je Netflix zakonito lahko uporabljal v Avstraliji, ko je bila uradno objavljena, vam ni bilo treba uporabiti VPN, da bi do njega prišli, mnogi ljudje po svetu ponavadi - če ne morete priti do nje v svojem lokalnem območju - ko je bil Netfix predstavljen v Avstraliji, se je povečala mednarodna pasovna širina na naših internetnih povezavah za 40 odstotkov, tako da se je skoraj enkrat podvojila uporaba interneta v Avstraliji čez noč, in sicer za samo eno aplikacijo, eno aplikacijo, ki gostuje v oblaku, ki ne igra nič drugega kot igranje s podatki. To je samo navidezna statistika.
Seveda smo vsi seznanjeni z Apple in Google, vendar gre za največja programska podjetja na planetu, vendar aplikacij dejansko ne pišejo. Kaj je skladno z vsemi temi organizacijami? No, to so podatki in tam niso prišli, ker niso vedeli, kje so njihovi podatki, in niso znali katalogizirati.
Zdaj ugotavljamo, da obstaja celoten novi razred sredstev, ki ga imenujemo podatki, in podjetja se prebujajo. Vendar nimajo vedno orodij, znanja in izkušenj in zato preslikati vse te podatke, katalogizirati vse te podatke in jih dati na razpolago, vendar smo ugotovili, da so podjetja, ki skoraj nimajo fizičnih sredstev, pridobila visoko tržno vrednost v zabeležite čas prek tega novega razreda podatkovnih sredstev. Kot sem že rekel, nekateri stari igralci se zdaj prebujajo in to zagotovo prinašajo.
Jaz sem velik oboževalec, da bi se na malo poti peljal, zato se je v osemnajstih stotih, poznih osemnajstih stotih in s tem boste več kot seznanjeni na ameriškem trgu, izkazalo, da je treba opraviti popis Vsako leto ali tako, mislim, da jih je takrat vodil vsakih deset let, če pa boste vsako leto opravili popis, bi lahko trajalo do osem ali devet let, da dejansko opravite analizo podatkov. Izkazalo se je, da je ta nabor podatkov ostal na poljih na papirju in ga skoraj nihče ni mogel najti. Ti poročili so kar naprej izčrpavali, toda do dejanskih podatkov je bilo zelo težko priti. Podobno situacijo imamo z drugim pomembnim svetovnim trenutkom, okoli 40. let prejšnjega stoletja, z drugo svetovno vojno, in ta stvar je Bemchley Park Bombe, ki jo je napisal BOMBE, in bilo je ogromno analitično orodje za drobljenje številk, ki je šlo skozi majhne nabore podatkov in v njem poiskalo signale ter se uporabljalo za pomoč pri odpravljanju kod skozi Enigmo.
Ta stvar je bila v bistvu zasnovana naprava, ki ni veliko katalogizirana, ampak označevanje in preslikavanje podatkov ter omogočanje vzorcev in iskanje znotraj podatkovnih nizov, v tem primeru prelom kode, iskanje ključev in stavkov ter iskanje jih redno uporabljamo v naborih podatkov in tako smo že skozi to pot iskali stvari v podatkih in vodili k katalogiziranju podatkov.
In potem so prišle še te stvari, ti ogromni nizkocenovni regali s stroji, ki so samo na roki. In naredili smo nekaj zelo zanimivih stvari in ena izmed stvari, ki smo jih storili z njimi, je, da smo zgradili zelo poceni grozde, ki bi lahko začeli indeksirati planet, in zelo znane so te velike blagovne znamke, ki so prihajale in odhajale, a verjetno je Google najpogostejši dom blagovne znamke, za katero smo že vsi slišali - postala je dejanski glagol, in veste, da ste uspešni, ko vaša blagovna znamka postane glagol. Kar pa nas je naučil Google, ne da bi se tega zavedali, morda tudi v poslovnem svetu, je, da so lahko indeksirali celoten planet na določeno raven in katalogizirali podatke po vsem svetu ter jih dali na voljo zelo enostavno, primerna oblika v majhni enotirni formuli, spletna stran, na kateri ni skoraj ničesar, in vtipkate poizvedbo, gre in jo poišče, ker so planet že prelistali, ga indeksirali in omogočili enostavno dostopnost.
In opazili smo: "No, počakaj, tega ne počnemo v organizacijah - zakaj je tako? Zakaj imamo organizacijo, ki lahko preslika celoten planet in ga indeksira, se plazira in indeksira in da na razpolago, lahko ga poiščemo, nato pa kliknemo na stvar in jo poiščemo, kako to, tega še niso storili interno? "Torej, obstaja veliko teh majhnih stojal strojev po vsem svetu, ki to počnejo za intranete in najdejo stvari, vendar se še vedno res spopadajo z idejo, da bi presegli tradicionalni splet stran ali datotečni strežnik.
Namesto da bi zdaj v to generacijo kataloga podatkov vstopili na več načinov, odkrivanje dostopa do podatkov prek beležk in pogovorov z vodnim hladilnikom v resnici ni več primerna metoda za odkrivanje in katalogiziranje podatkov, pravzaprav pa mislim, da to še nikoli ni bilo res je bilo. Tega celotnega izziva ne moremo več voditi ljudem, samo da bi si zapisovali, objavljali in klepetali. Zdaj smo dobro in resnično zunaj območja, kjer je pristopil k katalogiziranju podatkov novega generacije. Omogočiti ga moramo. Če bi šlo za enostavno vprašanje, bi ga že prej rešili na več načinov, vendar mislim, da ni lahka težava, samo indeksiranje in klicanje podatkov je le en del tega, saj vemo, kaj je v podatkih in graditi metapodatke na tem, kar odkrijemo, in jih nato v lahki, potrošni obliki dati na razpolago, zlasti za samopostrežne storitve in analitiko. Še vedno se težava rešuje, vendar je veliko delov uganke v petih letih dobro in resnično rešeno in na voljo.
Kot vemo, ljudje, ki katalogizirajo podatke, so recept za neuspeh, saj je človeška napaka ena največjih nočnih morem, s katerimi se ukvarjamo pri obdelavi podatkov, in redno govorim o tej temi, kjer je po mojem mnenju ljudje, ki izpolnjujejo papirnate obrazce, verjetno največja nočna mora ukvarjamo se z velikimi podatki in analitiko, s tem, da nenehno popravljamo stvari, ki jih počnejo, tudi vse do preprostih stvari, kot so datumi in polja, ki jih ljudje postavljajo v napačno obliko.
Kot sem že povedal, smo videli, da internetni iskalniki vsak dan indeksirajo svet, zato zdaj razmišljamo, da je to mogoče storiti na naborih poslovnih podatkov v postopku odkritja, orodja in sistemi pa so zdaj takoj na voljo, ko se boste danes učili. Trik je resnično po mojem mnenju izbira pravih orodij, najboljših orodij za delo. In še bolj primerno, da poleg tega najdete pravi del, ki vam bo pomagal začeti po tej poti. In verjamem, da bomo o tem slišali danes, toda preden to storim, grem na moj fakultet, Robin Bloor, in slišim njegovo mnenje o tej temi. Robin, lahko prenesem k tebi?
Robin Bloor: Da, zagotovo lahko. Poglejmo, če to deluje, o, ja. Ok, prihajam iz druge smeri kot Dez res, vendar bom končal na istem mestu. Gre za povezovanje s podatki, zato sem samo pomislil, da bom šel skozi resničnost povezovanja s podatki, točko za točko.
Obstaja dejstvo, da so podatki bolj razdrobljeni kot doslej. Obseg podatkov narašča fenomenalno, v resnici pa različni viri podatkov prav tako rastejo z neverjetno hitrostjo, zato podatki postajajo vedno bolj razdrobljeni. A zlasti zaradi analitičnih aplikacij - vendar to niso edine aplikacije - imamo res dober razlog za povezavo z vsemi temi podatki, zato smo obtičali na težkem mestu, obtičali smo v svetu razdrobljenih podatkov, in v podatkih je priložnost, kot jo je imenoval Dez, novo olje.
Glede podatkov, no, nekoč je živel na predvajalnem disku, bodisi v datotečnih sistemih ali bazah podatkov. Zdaj živi v veliko bolj raznolikem okolju, živi v datotečnih sistemih, danes pa živi tudi v primerih Hadoop ali celo v primerih Spark. Živi v več vrstah podatkovnih baz. Ne tako dolgo nazaj smo nekako standardizirali neko relacijsko bazo podatkov, dobro veste, da je šlo skozi okno v zadnjih petih letih, ker so potrebne baze podatkov o dokumentih in potrebe po bazah grafov, tako da veste, igra ima spremenjena. Torej je živel na predilnem disku, zdaj pa živi na SSD-ju. Najnovejša količina SSD - zagotovo najnovejša enota SSD prihaja iz Samsung - dvajset gigabajtov, kar je ogromno. Zdaj živi v spominu, v smislu, da je osnovna kopija podatkov lahko v pomnilniku, ne pa na disku, saj nismo uporabljali takšnih sistemov; to počnemo zdaj. In živi v oblaku. Kar pomeni, da lahko živi v kateri koli od teh stvari, v oblaku, ne boste nujno vedeli, kje je v oblaku, imeli boste le njegov naslov.
Hadoop doslej ni uspel kot razširljiva shramba podatkov. Upali smo, da bo postala razširljiva shramba podatkov z obsežnim obsegom in bo le postala en datotečni sistem za vse, in to bi bilo - v bistvu bi se na nebu pojavile mavrice, naokoli bi plesali samorogi, in nič od tega se ni zgodilo. Kar pomeni, da imamo na koncu težave s prenosom podatkov in včasih ni potreben prenos podatkov, vendar je to tudi težava. Podatki danes resnično imajo resnost, ko enkrat pridete v večterabajtne podatke, jih poberete in vržete okoli sebe, na neki način povzročajo zamude v vašem omrežju ali pa se pojavljajo na različnih mestih. Če želite podatke prenašati naokoli, je čas določanje časa. Dandanes je skoraj vedno nekaj omejitev, koliko časa imate, da dobite eno stvar, en podatek iz enega kraja v drugega. Včasih je bilo to, kar smo si zamislili kot šaržna okna, ko je stroj v prostem teku, in ne glede na to, koliko podatkov ste imeli, bi ga lahko vrgli naokrog in vse se bo obneslo. No to ni več, živimo v veliko bolj realnem svetu. Zato je časovni dejavnik dejavnik. Takoj, ko želite premakniti podatke, zato jih verjetno ne morete premakniti.
Upravljanje podatkov je dejavnik v smislu, da morate dejansko upravljati vse te podatke, tega ne dobite brezplačno, podvajanje pa je morda potrebno, da bi dejansko lahko dobili podatke, da lahko opravijo tisto delo, ki ga mora opraviti, ker morda ni kamorkoli si ga postavil. Morda nima dovolj sredstev za normalno obdelavo podatkov. Tako se podatki podvajajo, podatki pa se kopirajo več, kot bi si predstavljali. Mislim, da mi je nekdo že dolgo nazaj rekel, da se povprečen podatek podvaja vsaj dvakrat in pol. ESB ali Kafka predstavljajo možnost pretoka podatkov, danes pa zahteva arhitekturo. Dandanes morate na tak ali drugačen način razmišljati o tem, kaj pravzaprav pomeni metati podatke. Zato je ponavadi zaželeno dostopati do podatkov tam, kjer so, seveda, če seveda lahko dobite zmogljivost, ki jo potrebujete, ko dejansko želite podatke, in to je odvisno od konteksta. Torej je vsekakor težka situacija. V zvezi s podatkovnimi poizvedbami smo včasih razmišljali v smislu SQL, res smo prišli zdaj, veste, različne oblike poizvedb, SQL da, toda sosednja, tudi grafska poizvedba, Spark je le en primer delati graf, ker tudi mi moramo iskati besedilo, bolj kot kdajkoli prej, tudi z uporabo regularnih vrst iskanj, kar je resnično zapleteno iskanje vzorcev, in resnično ujemanje vzorcev, so vse te stvari pravzaprav izpuhtele. In vsi ti so koristni, ker dobijo tisto, kar iščeš, ali pa ti dobijo tisto, kar iščeš.
Poizvedbe zdaj segajo v več podatkov, tako da to ni vedno storilo, pogosto pa je uspešnost, če to storite. Torej, odvisno je od okoliščin, vendar ljudje pričakujejo, da bodo lahko poizvedovali po podatkih iz več virov, zato je federacija podatkov takšnih ali drugačnih vrst vedno bolj aktualna. Zelo pogosta je tudi virtualizacija podatkov, ki je različen način, odvisno od uspešnosti. Podatkovne poizvedbe so pravzaprav del procesa in ne celotnega procesa. Velja poudariti, da če dejansko gledate na učinkovitost analitike, lahko dejanska analitika traja precej dlje kot zbiranje podatkov, ker je to odvisno od okoliščin, vendar so poizvedbe po podatkih nujno, če želite storiti katero koli vrste analitike na več virov podatkov, in res, dejansko morate imeti zmogljivosti, ki segajo.
Torej o katalogih. Katalogi obstajajo z razlogom, vsaj mi pravimo, da veste, da, imamo imenike in imamo sheme v bazah podatkov, vsak katalog imamo in kjerkoli gremo, boste našli eno mesto in potem boste dejansko ugotovi, da obstaja nekakšen katalog, in poenoten globalni katalog je tako očitno dobra ideja. Toda zelo malo podjetij ima takšno. Spomnim se, da je bilo v letu dva tisoč - v dve tisoč letih panike - spomnim, da komunisti sploh niso mogli določiti, koliko izvršljivih datotek so imeli, ne glede na to, koliko različnih shramb podatkov so imeli, in verjetno je zdaj tako veste, da večina podjetij v globalnem smislu aktivno ne ve, kakšne podatke ima. Toda očitno postaja vse bolj potrebno imeti globalni katalog ali vsaj imeti globalno sliko o tem, kaj se dogaja zaradi rasti virov podatkov in nenehne rasti aplikacij, še posebej pa je to potrebno za analitiko, ker tudi vi na en način in tukaj obstajajo druga vprašanja, kot so ločitev in težave s podatki, zato je potrebno za varnost, številne vidike upravljanja podatkov, če res ne veste, katere podatke imate, ideja da boste upravljali, je samo nesmiselno. Tako da so vsi podatki na nek način katalogizirani samo dejstvo. Vprašanje je, ali je katalog skladen in kaj lahko z njim storite. Torej se bom vrnil k Rebeki.
Rebecca Jozwiak: V redu, hvala Robin. Zraven imamo Davida Crawforda iz Alationa, David, šel bom naprej in ti žogo prenesel, ti pa ga lahko odneseš.
David Crawford: Najlepša hvala. Resnično cenim, da me imate na tej predstavi. Mislim, da bom to začel, zato mislim, da je moja vloga tu, da vzamem nekaj te teorije in pogledam, kako se dejansko uporablja, in rezultate, ki jih lahko dosežemo pri pravih kupcih in tako lahko vidite nekaj na diapozitivu, želim spregovoriti o tem, kakšne rezultate bomo lahko videli pri analitičnem morebitnem izboljšanju. Torej, da motiviramo razpravo, bomo govorili o tem, kako so prišli tja. Tako imam srečo, da bom dokaj tesno sodeloval z veliko resnično pametnimi ljudmi, temi strankami, in samo želim opozoriti na nekaj, ki jih je bilo mogoče dejansko izmeriti, in spregovoriti o tem, kako je katalog podatkov vplival na njihovega analitika potek dela In če na kratko ostanemo spredaj, menim, da je ena od stvari, ki jih vidimo, s katalogi podatkov s prejšnjimi posredovanimi rešitvami in enim od načinov, kako odnosi resnično razmišljajo o rešitvah, ki jih imamo skupaj, ta, da začnemo z analitiki in delati nazaj. Če želimo reči, omogočimo produktivnost analitikov. V nasprotju s samo skladnostjo ali v nasprotju s samo inventuro ustvarjamo orodje, ki analitike naredi bolj produktivno.
Ko se torej pogovarjam s podatkovnim znanstvenikom v podjetju za finančne storitve Square, je nekdo Nick, ki nam je pripovedoval o tem, kako je njegov. Včasih je potreboval več ur, da je našel ustrezen nabor podatkov za začetek poročila, zdaj pa lahko to storite v nekaj sekundah z iskanjem tržnega deleža, pogovarjali smo se s njihovim CTO, ki je potegnil svoje analitike, ki so uporabljali Square, oprostite, je bil z Alationom, da bi ugotovili, kaj je njihovo, kakšne koristi so videli, in poročali o 50 odstotno povečanje produktivnosti in da eBay, eden najboljših svetovnih trgovcev na drobno, ima več kot tisoč ljudi, ki redno delajo SQL analize, in precej tesno sodelujem z Deb Says tam, ki je projekt v njihovi skupini za podatkovna orodja, in ugotovila je, da ko poizvedovalci sprejmejo Alation, sprejmejo katalog, opazijo dvojno hitrost pisanja novih poizvedb v bazo podatkov.
To so resnični rezultati, to so ljudje, ki dejansko uporabljajo katalog v svoji organizaciji, in rad bi vas seznanil s tem, kar je potrebno, da se nastavite. Kako se katalog ustanovi v podjetju in je morda najpomembneje povedati, da se veliko zgodi samodejno, zato je Dez govoril o sistemih, se učil o sistemih in prav to počne sodoben katalog podatkov. Torej namestijo Alation v svoj podatkovni center in ga nato povežejo z različnimi viri metapodatkov v svojem podatkovnem okolju. Nekoliko se bom osredotočil na podatkovne baze in BI orodja - iz obeh bomo izvlekli tehnične metapodatke, in sicer o tem, kaj sploh obstaja. Kajne mize? Kakšna poročila? Kakšne so opredelitve poročila? Torej izvlečejo te tehnične metapodatke in kataloška stran se samodejno ustvari za vsak predmet znotraj teh sistemov, nato pa izvlečejo in plast nad temi tehničnimi metapodatki, plastejo nad podatke o uporabi. To se izvaja predvsem z branjem dnevnikov poizvedb iz baze podatkov in to je res zanimiv vir informacij. Torej, kadar analitik napiše poizvedbo, kadar koli orodje za poročanje, ali je doma pridelano ali zunaj police, ali orodje za poročanje izvede poizvedbo za posodobitev nadzorne plošče, ko aplikacija izvede poizvedbo za vstavljanje podatkov, s katerimi deluje nabor podatkov - vse te stvari so zajete v dnevnikih poizvedb baze podatkov. Ne glede na to, ali imate katalog ali ne, so zajeti v dnevnik poizvedb z bazo podatkov. Kaj lahko naredi katalog podatkov in še posebej, kaj lahko naredi katalog Alation, je, da preberete te dnevnike, postavite poizvedbe v njih in na podlagi teh dnevnikov ustvarite res zanimiv graf uporabe in to sprostimo za obveščanje bodočih uporabnikov podatkov o tem, kako so jih pretekli uporabniki podatkov uporabljali.
Torej, vse to znanje zberemo v katalog, in da bi to resnično uresničili, to so integracije, ki so že uvedene pri kupcih, zato smo videli Oracle, Teradata, Redshift, Vertica in kup drugih relacijske baze podatkov. V svetu Hadoop obstaja vrsta SQL na Hadoopu, neke vrste relacijske, meta shrambe na vrhu datotečnega sistema Hadoop, Impala, Tez, Presto in Hive, uspeh smo videli tudi pri zasebnih ponudnikih v oblaku, kot so Altiscale, in so se lahko povezali tudi s strežniki Tableau, strežniki MicroStrategy in indeksirali tamkajšnje nadzorne plošče, pa tudi integracije z orodji za grafikovanje podatkov, kot je Plotly.
Torej, povezujemo se z vsemi temi sistemi, te sisteme smo povezali s strankami, vključili smo tehnične metapodatke, vlekli podatke o uporabi in nekako avtomatično napolnili katalog podatkov, a na ta način smo centralizirajte znanje, vendar zgolj centraliziranje stvari v podatkovnem katalogu samo po sebi ne zagotavlja tistih res čudovitih povečanj produktivnosti, o katerih smo govorili z eBay, Square in tržnim deležem. Da bi to dosegli, moramo dejansko spremeniti način razmišljanja o predaji znanja analitikom. Eno od vprašanj, ki si jih želijo pripraviti na to, je bilo "Kako katalog dejansko vpliva na potek analitika?"
To je tisto, o čemer smo ves dan razmišljali, in da bi spregovorili o tej spremembi razmišljanja, o potisnih verzih modelu za poteg, sem želel narediti hitro analogijo s tem, kakšen je bil svet pred in po branju na Kindle. Torej je to zgolj izkušnja, ki jo imajo nekateri, ko berete fizično knjigo, naletite na besedo, niste prepričani, da poznate definicijo te besede zelo dobro, morda jo ugibate iz konteksta, ne pa verjetno, da bi se dvignite s kavča, se sprehodite do svoje knjižne police, poiščite svoj slovar, ga oprašite in odpeljite na pravo mesto na abecednem seznamu besed, da se prepričate, da, da, imeli ste to definicijo ravno prav, in veste nianse tega. Torej se v resnici ne zgodi. Torej kupite aplikacijo Kindle in tam začnete brati knjige in vidite besedo, o kateri niste povsem prepričani, in se dotaknete besede. Kar naenkrat, prav na tem istem zaslonu, je slovarska opredelitev besede z vsemi njenimi niansami, različnimi primeri uporabe in malo povlecite in dobite članek iz Wikipedije na to temo, spet povlecite, dobite orodje za prevajanje, ki ga lahko prevedete v druge jezike ali iz drugih jezikov, kar naenkrat pa je vaše znanje jezika toliko bogatejše, kar se zgodi presenetljivo večkrat, v primerjavi s tem, ko ste morali iti in potegnite ta vir zase.
Torej, kar bom trdil, je, da je potek dela za analitika in način, kako se bo analitik ukvarjal s podatkovno dokumentacijo, pravzaprav zelo podoben načinu, kako bo bralec sodeloval s slovarjem, bodisi fizičnim, bodisi Kindle, in to, kar mi, tako kot smo res videli to povečanje produktivnosti, ne širi kataloga, ampak ga poveže z delovnim tokom analitika, in tako so me prosili, naj naredim demonstracijo tukaj, in želim da bi bil to središče te predstavitve. Ampak samo želim postaviti demo kontekst. Ko razmišljamo o tem, da bi podatke prenesli na uporabnike, ko jih potrebujejo, mislimo, da je pravi kraj za to, kraj, kjer preživijo svoj čas in kjer delajo analizo, orodje za poizvedbe SQL. Kraj, kjer pišete in izvajate poizvedbe SQL. In tako smo eno zgradili in jo tudi zgradili, in stvar, ki se v njej resnično razlikuje od drugih orodij za poizvedbe, je njena globoka integracija s katalogom podatkov.
Tako se naše orodje za poizvedbe imenuje Alation Compose. To je spletno orodje za poizvedbe in pokazal vam ga bom čez sekundo. Spletno orodje za poizvedbe, ki deluje na vseh tistih logotipih baze podatkov, ki ste jih videli na prejšnjem diapozitivu. Zlasti bom poskušal prikazati način, kako informacije o katalogu pridejo do uporabnikov. In to počne na takšne tri različne načine. To počne z intervencijami, in tam nekdo, ki je guverner podatkov ali vodja podatkov ali nekakšen skrbnik ali upravitelj, lahko reče: "Želim nekako posredovati z noto ali opozorilom v potek dela in poskrbite, da bo uporabnikom dostavljen ob pravem času. "Torej, to je intervencija in to bomo pokazali.
Pametni predlogi so način, ko orodje uporabi celotno svoje zbirno znanje iz kataloga, da predlaga predmete in dele poizvedbe, ko pišete. Najpomembnejše, kar morate vedeti, je, da resnično izkoristite dnevnik poizvedb, če želite to narediti, predlagati stvari, ki temeljijo na uporabi, in najti celo dele poizvedb, ki so bile že napisane. In to bomo pokazali.
In potem predogledi. Predogledi so, ko vtipkate ime predmeta, pokazali vse, kar katalog pozna, ali vsaj najbolj ustrezne stvari, ki jih katalog pozna o tem objektu. Torej, vzorci podatkov, ki so jih prej uporabljali, logično ime in opis predmeta, vam pridejo v poštev, medtem ko jih pišete, ne da bi jih morali vprašati.
Torej, ne da bi se več pogovarjal, bom prišel do demonstracije in samo čakam, da se pojavi. Kar vam bom tukaj pokazal, je orodje za poizvedbe. To je namenski vmesnik za pisanje SQL. To je v določenem smislu ločen vmesnik od kataloga. Dez in Robin sta se pogovarjala o katalogu in malo sem skočila po kataloškem vmesniku naravnost, kako je vnesen neposredno, da bi služil potek dela.
Tukaj samo prikazujem mesto, kjer lahko vtipkam SQL, na dnu pa boste videli, da se nekako pojavljajo informacije o predmetih, na katere se sklicujemo. Tako bom šele začel pisati poizvedbo in se ustavil, ko pridem na enega od teh posegov. Torej vtipkam "select" in želim leto. Hočem ime. Bom poiskal nekaj plačnih podatkov. To je nabor podatkov o izobraževanju. Ima podatke o visokošolskih zavodih in gledam povprečno plačo fakultete, ki je v eni od teh tabel.
Torej sem dejansko vtipkal besedo "plača". Ni ravno v imenu stolpca tako. Za predloge uporabljamo tako logične metapodatke kot fizične metapodatke. In tukaj želim poudariti to rumeno polje, ki se pojavlja tukaj. Piše, da je v tem stolpcu opozorilo. Nisem tega iskal, nisem se učil o pravilni uporabi teh podatkov. Prišlo je do mene in zgodilo se je kot opozorilo o sporazumu o zaupnosti, ki je povezan s temi podatki. Torej obstaja nekaj pravil o razkritju. Če bom te podatke poizvedoval, bom podatke vzel iz te tabele, naj bom previden, kako jih razkrijem. Torej imate tukaj politiko upravljanja. Obstajajo nekateri izzivi glede skladnosti, zaradi katerih je toliko lažje upoštevati to politiko, ko o tem vem, ko gledam podatke.
Torej, to mi je prišlo, potem pa bom šel tudi pogledat šolnino. In tu vidimo, da se predogledi začnejo uporabljati. V tem stolpcu za učenje sem videl - na tabeli z institucijami je stolpec za pouk in vidim profil tega. Alation gre in potegne vzorčne podatke iz tabel in v tem primeru mi pokaže nekaj, kar je precej zanimivo. Prikazuje mi porazdelitev vrednosti in prikazuje, da se je v vzorcu ničelna vrednost pokazala 45-krat in več kot katera koli druga vrednost. Tako imam nekaj občutka, da nam morda manjkajo nekateri podatki.
Če sem napredni analitik, je to morda že del mojega delovnega procesa. Še posebej, če sem še posebej natančen, kjer bi pred časom opravil kup poizvedovalnih profilov. Kadarkoli se približujem novemu podatku, vedno pomislim, kakšno je naše zajetje podatkov. Če pa sem nov za analizo podatkov, če sem nov v tem naboru podatkov, lahko domnevam, da če je stolpec, je ves čas izpolnjen. Lahko pa domnevam, da če ni izpolnjeno, ni nič, je nično ali kaj podobnega. Toda v tem primeru imamo veliko nič, in če bi naredil povprečje, bi se verjetno zmotili, če bi samo domneval, da so te ničle namesto manjkajočih podatkov.
Toda Alation vas s tem, ko vnesete ta predogled v svoj potek dela, nekako prosi, da si ogledate te podatke in celo nekaterim novomeškim analitikom omogoči, da vidijo, da je treba pri teh podatkih kaj opaziti. Torej imamo ta predogled.
Naslednja stvar, ki jo bom storil, je, da bom poskušal ugotoviti, iz katerih tabel je mogoče dobiti te podatke. Torej, tukaj vidimo pametne predloge. Ves čas gre, predvsem pa tukaj še nisem ničesar vtipkal, ampak mi bo predlagal, katere tabele bi želel uporabiti za to poizvedbo. In najpomembnejše, kar morate vedeti o tem, je, da izkoristi statistiko uporabe. Torej je v okolju, kot je na primer eBay, kjer imate na stotine tisoč tabel v eni bazi podatkov, orodje, ki lahko nekako zadene pšenico iz sečnice, in z uporabo teh statistik uporabe zelo pomembno za njihovo izdelavo predlogi nekaj vreden.
Zato bomo predlagali to tabelo. Ko pogledam predogled, dejansko izpostavimo tri stolpce, ki sem jih omenil že v poizvedbi. Torej vem, da ima tri, vendar nima imena. Moram dobiti ime, zato se bom pridružil. Ko se pridružim, imam spet te predoglede, ki mi bodo pomagali najti, kje je tabela z imenom. Tako vidim, da ima ta lepo oblikovano, nekako pravilno napisano veliko ime. Zdi se, da ima ena vrstica z imenom za vsako institucijo, zato bom to pograbil in zdaj potrebujem pogoj za pridružitev.
In tako, to, kar počne Alation, je spet pregledovanje dnevnikov poizvedb, prejšnjič, ko sta se ti dve tabeli združili, in predlaganje različnih načinov, kako ju povezati. Še enkrat, nekaj intervencije. Če pogledam eno od teh, imam opozorilo, ki mi pokaže, da bi bilo treba to uporabiti samo za skupno analizo. Verjetno bo nastalo napačno, če boste skušali nekaj narediti skozi institucijo po instituciji. Ker je ta, je ID OPE potrjen kot ustrezen način za združevanje teh dveh tabel, če želite podatke na ravni univerze. Torej to storim in gre za kratko poizvedbo, vendar sem svojo poizvedbo napisal, ne da bi nujno imel vpogled v podatke. Nikoli si dejansko nisem ogledal ER-diagrama tega nabora podatkov, vendar o teh podatkih vem že kar precej, ker mi pridejo ustrezne informacije.
To so nekako trije načini, kako lahko katalog s pomočjo integriranega orodja za poizvedbe neposredno vpliva na potek dela med pisanjem poizvedb. Toda ena od drugih prednosti, da je orodje za poizvedbe integrirano s katalogom, je ta, da lahko, ko končam poizvedbo in jo shranim, dam naslov, kot je "Izobraževanje v zavodih in fakultetna plača", in tukaj imam gumb, ki mi omogoča, da ga samo objavim v katalogu. Zelo enostavno mi je hraniti to hrbet. Tudi če ga ne objavim, se zajame kot del poizvedbenega dnevnika, ko pa ga objavim, postane dejansko del centraliziranega kraja, kjer živi vse znanje podatkov.
Če kliknem Iskanje vseh poizvedb v Alaciji, bom prevzeta - in tu boste videli še nekaj vmesnika kataloga - odpeljal se bom v namensko iskanje poizvedb, ki mi pokaže način iskanja poizvedb v celotna organizacija. In vidite, da je moja novo objavljena poizvedba na vrhu. In nekateri bi morda opazili tukaj, ko zajemamo poizvedbe, zajamemo tudi avtorje in nekako vzpostavljamo ta odnos med mano kot avtorjem in temi predmeti, o katerih zdaj nekaj vem. In ustanovljen sem kot strokovnjak za to poizvedbo in za te podatke. To je zelo koristno, ko se morajo ljudje naučiti podatkov, potem lahko poiščejo pravo osebo, o kateri se bodo naučili. In če sem pravzaprav nov za podatke, ali sem napredni analitik - kot napredni analitik bi to lahko pogledal in videl kup primerov, s katerimi bi začel delovati v novem naboru podatkov. Kot nekdo, ki morda ne čuti super pametnega s SQL-om, lahko najdem vnaprej izdelane poizvedbe, ki so poročila, ki jih lahko izkoristim.
Tukaj je Phil Mazanett o srednjih rezultatih SAT. Kliknite na to in dobim nekakšno stran kataloga za samo poizvedbo. Govori o članku, ki je bil napisan, v katerem se sklicuje na to poizvedbo, zato je nekaj dokumentacije, ki jo lahko preberem, če se želim naučiti, kako jo uporabljati. In v orodju za poizvedbe ga lahko odprem s pritiskom na gumb Compose in lahko samo tukaj zaženem, ne da bi ga sploh uredil. Pravzaprav boste videli malo naše lahke zmožnosti poročanja, kjer lahko med pisanjem poizvedbe spustite spremenljivko predloge, kot je ta, in ustvari preprost način za oblikovanje obrazca za izvajanje poizvedbe na par parametrov.
To je tisto, kar imam za demonstracijo. Grem nazaj na diapozitive. Samo za povzetke smo pokazali, kako lahko skrbnik, upravljalec podatkov, posreduje tako, da opozorila na predmete, ki se pojavijo v orodju za poizvedbe, kako Alation svoje znanje o uporabi podatkovnih predmetov uporablja za pametne predloge, kako prinaša v profiliranju in drugih nasvetih za izboljšanje tokov dela analitikov, ko se dotikajo določenih predmetov, in kako se vse tovrstne vire vrnejo v katalog, ko se napišejo nove poizvedbe.
Očitno sem predstavnik podjetja v imenu podjetja. O katalogih podatkov bom povedal lepe stvari. Če želite slišati neposredno od ene od naših strank, Kristie Allen v Safewayu vodi skupino analitikov in ima res kul zgodbo o času, ko je za izvedbo marketinškega eksperimenta potrebovala, da bi resnično premagala uro. ekipa Alation je uporabila sodelovanje in se zelo hitro obrnila na tem projektu. Tako lahko sledite tej povezavi bit.ly, da preverite to zgodbo, ali če želite slišati malo o tem, kako bi Alation lahko v vašo organizacijo vnesel katalog podatkov, bomo z veseljem postavili prilagojen predstavitveni prikaz. Najlepša hvala.
Rebecca Jozwiak: Hvala lepa, David. Prepričan sem, da imata Dez in Robin še nekaj vprašanj, preden se obrnem na vprašanja in vprašanja občinstva. Dez, ali bi rad šel prvi?
Dez Blanchfield: Vsekakor. Všeč mi je ideja tega koncepta objavljenih poizvedb in ga povežem z izvorom avtorstva. Bil sem dolgoletni prvak te ideje lastne trgovine z aplikacijami in mislim, da je to resnično odlična osnova za gradnjo na tem.
Nekako sem dobil kakšen vpogled v nekatere organizacije, ki jih vidite, da to počnejo, in nekatere zgodbe o uspehu, ki bi jih morda imeli na tem celotnem potovanju, ne le, da bi vaše orodje in platformo odkrili podatke, ampak tudi potem tudi preoblikujejo svoje notranje kulturne in vedenjske lastnosti. Zdaj ima tovrstno hišno trgovino z aplikacijami, v katero nekako prenašate, koncept, v katerem ne morejo le najti, ampak dejansko lahko začnejo razvijati majhne skupnosti s skrbniki tega znanja.
David Crawford: Ja, mislim, da smo bili presenečeni. Verjamemo v vrednost deljenja poizvedb, tako iz moje preteklosti kot produktnega vodje v Adtechu, kot tudi od vseh strank, s katerimi smo se pogovarjali, vendar sem še vedno presenečen nad tem, kako pogosto je to ena prvih stvari, ki jih kupci govorijo o vrednosti, ki jo dobijo iz Alation.
Naredil sem nekaj uporabniškega testiranja orodja za poizvedbe pri eni od naših strank, imenovanega Invoice2go, in imeli so upravitelja izdelkov, ki je bil razmeroma nov, in rekli so mi - v resnici mi je med uporabniškim testom rekel, neokusen: "Pravzaprav ne bi sploh pisati SQL, le da ga Alation olajša. "In seveda kot predsednik vlade nekako pojem:" Kako to mislite, kako smo to naredili? "In on je rekel:" No, res je samo ker se lahko prijavim in vidim vse te obstoječe poizvedbe. "Začeti s prazno skrilavko s SQL je neverjetno težko narediti, vendar spremeniti obstoječo poizvedbo, kjer lahko vidite izstavljeni rezultat in lahko rečete, "Oh, potrebujem samo ta dodatni stolpec, " ali "Moram ga filtrirati do določenega obdobja", to je veliko lažje storiti.
Videli smo vrste teh pomožnih vlog, na primer vodje izdelkov, morda ljudje v prodajnih podjetjih, ki se začnejo pobirati in ki so se vedno radi naučili SQL in ga začeli pobirati z uporabo tega kataloga. Videli smo tudi, da je veliko podjetij poskušalo narediti nekakšen open source. Poskušal sem vgraditi tovrstne stvari znotraj, kjer spremljajo poizvedbe in jih dajo na voljo, in obstaja resnično nekaj težavnih izzivov pri oblikovanju, da bi jih naredili uporabne. Facebook je imel interno orodje, ki so ga poimenovali HiPal, ki je zajel vse poizvedbe, napisane na Hive, toda ugotovite, da če uporabnikov ne potisnete na pravi način, preprosto končate z zelo dolg seznam izbranih izjav. In kot uporabnik, ki poskuša ugotoviti, ali mi je poizvedba koristna ali je kakšna dobra, če bom samo pogledal dolg seznam izbranih izjav, mi bo trajalo veliko dlje, da tam dobim nekaj koristnega kot začenši iz nič. Precej natančno smo razmišljali, kako narediti katalog poizvedb, ki bo spravil prave stvari na sprednjo stran in jih zagotovil na uporaben način.
Dez Blanchfield: Mislim, da se na tej poti od vseh mladih let, pa vse do odraslosti, na več načinov prebijamo. Kup tehnologij. Tudi jaz osebno sem šel skozi tisto zelo pristno stvar, kot sem se naučil rezati kodo. Šel bi po revijah in nato po knjigah, študiral bi do določene stopnje, potem pa bi moral iti in se na njem pravzaprav še nekaj izobraževati in izobraževati.
Toda nehote sem ugotovil, da sem se, ko sem se učil in bral revije, bral knjige in sekal programe drugih ljudi in hodil na tečaje, še vedno učil toliko iz tečajev, kot sem se samo pogovarjal z drugimi ljudje, ki so imeli nekaj izkušenj. In mislim, da je zanimivo odkritje, da zdaj, ko to pripeljete do analitike podatkov, v bistvu vidimo tisto isto vzporednico, da so človeška bitja vedno precej pametna.
Druga stvar, ki jo resnično želim razumeti, je, da se na zelo visoki ravni mnoge organizacije sprašujejo: »Koliko časa traja, da pridem do te točke?« Kakšen je časovni okvir, ko ljudje pridejo vaša platforma nameščena in so začeli odkrivati vrste orodij? Kako hitro ljudje samo vidijo, da se ta stvar spremeni v resnično "a-ha" trenutek, ko se zavedajo, da se ne zanima več za donosnost naložbe, ker je tam, zdaj pa dejansko spreminjajo način poslovanja ? In odkrili so izgubljeno umetnost in pričakujejo, da bodo z njo lahko naredili nekaj resnično zares zabavno.
David Crawford: Ja, malo se ga lahko dotaknem. Mislim, da ko se namestimo, je ena izmed lepih stvari, ena od stvari, ki jih imajo ljudje radi pri katalogu, ki je neposredno povezan v podatkovne sisteme, ta, da ne začnete prazno, kjer ga morate nekako izpolniti. stran za stranjo. In to nekako velja za prejšnje podatkovne rešitve, kjer bi začeli s praznim orodjem in začeli ustvarjati stran za vse, kar želite dokumentirati.
Ker toliko stvari samodejno dokumentiramo tako, da izvlečemo metapodatke, v bistvu v nekaj dneh po namestitvi programske opreme, si lahko v orodju ogledate sliko svojega podatkovnega okolja, ki je vsaj 80 odstotkov. In potem pomislim, da ko bodo ljudje začeli pisati poizvedbe z orodjem, se samodejno shranijo nazaj v katalog in tako se bodo začeli prikazovati tudi ti.
Nočem biti pretirano željan, da bi to izjavil. Mislim, da je dva tedna precej dobra konzervativna ocena, do enega meseca. Dva tedna do meseca, konzervativna ocena, kako se resnično vrtiš in se počutiš, kot da dobiš vrednost od tega, kot da začneš deliti nekaj znanja in se lahko odpraviti tja in izvedeti stvari o svojih podatkih.
Dez Blanchfield: Res je presenetljivo, ko razmišljaš o tem. Dejstvo, da bodo nekatere velike platforme podatkov, ki jih učinkovito indeksirate in katalogizirane, včasih potrebovale tudi eno leto, da se pravilno izvedejo, uvedejo in ustanovijo.
Zadnje vprašanje, ki sem ga dobil pred odhodom Robin Bloorju, so konektorji. Ena od stvari, ki mi takoj poskoči, je, da ste očitno razrešili ves ta izziv. Torej je nekaj vprašanj zelo hitro. Prvič, kako hitro se izvajajo priključki? Očitno začnete z največjo platformo, kot so Oracles in Teradatas in tako naprej, kot tudi DB2. Toda kako redno opažate, da prihajajo novi priključki in kakšen čas prenosa? Predstavljam si, da imate za njih standardni okvir. In kako globoko se spuščate v to? Na primer svetovne organizacije Oracles in IBM in celo Tereadata, nato pa nekatere bolj priljubljene platforme poznega odprtega vira. Ali delajo neposredno z vami? Ga odkrijete sami? Ali morate imeti znanje o teh platformah?
Kako izgleda razviti konektor in kako globoko se vključite v ta partnerstva, da zagotovite, da ti konektorji odkrijejo vse, kar morete?
David Crawford: Ja, zagotovo, to je veliko vprašanje. Mislim, da večinoma lahko razvijemo konektorje. Zagotovo smo to storili, ko smo bili mlajši startup in nismo imeli kupcev. Povezave lahko zagotovo razvijemo, ne da bi potrebovali notranji dostop. Nikoli ne dobimo posebnega dostopa do podatkovnih sistemov, ki niso javno dostopni, pogosto pa ne potrebujemo nobenih notranjih informacij. Izkoristimo storitve metapodatkov, ki so na voljo v samih podatkovnih sistemih. Pogosto so lahko precej zapletene in jih je težko delati. Zlasti poznam SQL Server, kako upravljajo dnevnik poizvedb, obstaja več različnih konfiguracij in resnično morate delati. Za pravilno nastavitev morate razumeti odtenke, gumbe in številčnice na njem, in to je tisto, s čimer sodelujemo s strankami, saj smo to storili že večkrat.
Do določene mere smo na razpolago nekakšni javni API-ji ali javni vmesniki, ki so na voljo. Imamo partnerstva z več takšnimi podjetji, to je večinoma razlog za certificiranje, tako da se počutijo udobno, ko govorimo, da delamo, in tudi, da nam lahko zagotovijo vire za testiranje, včasih zgodnji dostop, morda do platforme, ki izhaja, da se prepriča, da delamo na novih različicah.
Da se obrnem na novo povezavo, bi rekel še enkrat, poskušal bi biti konzervativen, recimo šest tednov do dveh mesecev. Odvisno je, kako podobna je. Nekateri Postgre delujejo nekako podobno kot Redshift. Redshift in Vertica delita veliko svojih podrobnosti. Tako lahko izkoristimo te stvari. Ampak ja, šest tednov do dveh mesecev bi bilo pošteno.
Imamo tudi API-je, tako da - tudi o Alation razmišljamo kot o metapodatkovni platformi, tako da če nam kaj ni na voljo, da se dotaknemo in samodejno zgrabimo, obstajajo načini, kako lahko sami napišete konektor in ga potisnete v naš sistem. da se vse še vedno centralizira v enem samem iskalniku.
Dez Blanchfield: Fantastično. Cenim, da. Torej ga bomo predali Robinu, saj sem prepričan, da ima tudi on veliko vprašanj. Taščica?
Rebecca Jozwiak: Robin je morda brez zvoka.
Dez Blanchfield: Pogrešili ste se.
Robin Bloor: Ja, prav. Oprosti, sam sem izključil zvok. Ko to izvajate, kakšen je postopek? Nekako sem radoveden, ker je na mnogih mestih lahko veliko podatkov. Kako to deluje?
David Crawford: Ja, seveda. Vstopimo najprej. To je nekakšen postopek IT, s katerim zagotovimo, da je naš strežnik urejen, da so na voljo omrežne povezave, da so vrata odprta, da lahko dejansko dostopamo do sistemov. Vsi pogosto vedo, s katerimi sistemi želijo začeti. Poznavanje podatkovnega sistema, ki jim - in včasih jim dejansko pomagamo. Pomagali jim bomo, da bodo najprej pregledali dnevnik poizvedb, da bi razumeli, kdo uporablja kaj in koliko uporabnikov ima v sistemu. Tako bomo pomagali ugotoviti, kje - pogosto, če imajo na stotine ali tisoče ljudi, ki bi se lahko prijavili v baze podatkov, dejansko ne vedo, kje se prijavljajo, zato lahko to ugotovimo iz poizvedi beleži, koliko edinstvenih uporabniških računov se dejansko prijavite in v mesecu dni pričnete izvajati poizvedbe.
Tako lahko to izkoristimo, vendar pogosto le na najpomembnejših. Nastavimo jih in nato začne postopek: "Dajmo prednost." Vzporedno se lahko zgodi vrsta dejavnosti. Osredotočil bi se na usposabljanje za uporabo poizvedovalnega orodja. Ko ljudje začnejo uporabljati orodje za poizvedovanje, je mnogim ljudem všeč dejstvo, da je to le en sam vmesnik za vse njihove različne sisteme. Všeč jim je tudi dejstvo, da je spletna, ne vključuje nobenih namestitev, če tega ne želijo. Z vidika varnosti jim je všeč, da imajo nekakšno vhodno točko, z vidika omrežja, med vrstam korporacijskega IT omrežja in podatkovnim centrom, kjer živijo proizvodni viri podatkov. Tako bodo postavili Alation kot poizvedbeno orodje in začeli uporabljati Compose kot točko dostopa do vseh teh sistemov.
Ko se to zgodi, se osredotočimo na usposabljanje, potem ko razumemo, kakšne so razlike med spletnim ali strežniškim orodjem za poizvedbe v primerjavi s tistim, ki bi ga imeli na namizju, in nekatere nianse uporabe da. In hkrati bomo poskušali ugotoviti najdragocenejše podatke in ponovno izkoristiti podatke dnevnika poizvedb ter reči: "Hej, morda bi radi stopili v pomoč in ljudem pomagali razumeti te podatke. Začnimo objavljati reprezentativne poizvedbe na teh tabelah. "To je včasih najučinkovitejši način, da se ljudje hitro zasučejo. Oglejmo si svojo zgodovino poizvedb, jih objavimo tako, da se prikažejo kot prve poizvedbe. Ko ljudje pogledajo stran tabele, lahko vidijo vse poizvedbe, ki so se dotaknile te tabele, in lahko začnejo od tam. In začnimo tem predmetom dodajati naslove in opise, da jih boste lažje našli in iskali, tako da boste vedeli nekatere nianse, kako jih uporabljati.
Poskrbimo, da bomo natančno pregledali dnevnik poizvedb, da bomo lahko ustvarili rodove. Ena izmed stvari je, da gledamo skozi dnevnik poizvedb v trenutkih, ko se podatki premikajo iz ene tabele v drugo, in to nam omogoča, da postavimo eno najpogostejših vprašanj o tabeli podatkov, od kod je to prišlo? Kako lahko zaupam? In to, kar lahko pokažemo, ni samo iz katerih drugih tabel je prišlo, ampak tudi, kako se je preoblikovalo na poti. Še enkrat, to nekako poganja dnevnik poizvedb.
Tako poskrbimo, da so te stvari nastavljene in da v sistem vnašamo rodovine ter ciljamo na najbolj dragocene in najbolj podprte dele metapodatkov, ki jih lahko vzpostavimo na straneh tabel, tako da pri iskanju najdete nekaj koristnega.
Robin Bloor: V redu. Drugo vprašanje - veliko je vprašanj občinstva, zato si tukaj ne želim zavzemati preveč časa - drugo vprašanje, ki mi prihaja na misel, so samo bolečine. Veliko programske opreme je kupljeno zato, ker imajo ljudje tako ali drugače težave z nečim. Kakšna je torej skupna bolečinska točka, ki ljudi vodi v Alation?
David Crawford: Ja. Mislim, da jih je nekaj, vendar menim, da je eden tistih, ki ga slišimo precej pogosto, analitik na krovu. "V kratkem bom moral zaposliti 10, 20, 30 ljudi, ki bodo morali iz teh podatkov pripraviti nova spoznanja, kako bodo hitro dosegli?" Torej, analitik na krovu je nekaj, kar zagotovo reševanje. Starejši analitiki prav tako razbremenijo čas, da bi ves čas odgovarjali na vprašanja drugih o podatkih. Tudi to je zelo pogosto. In to sta v bistvu težave z izobraževanjem.
In potem bi rekel, da drugi ljudje vidijo, da sprejema Alation, ko želijo postaviti popolnoma novo podatkovno okolje za nekoga, v katerem želijo delati. To želijo interno oglaševati in tržiti, da bi ga ljudje lahko izkoristili. Potem je Alation v tem novem analitičnem okolju zelo privlačen. Ima dokumentacijo, eno samo točko uvajanja v - eno točko dostopa do sistemov in tako je to drugo mesto, kamor bodo ljudje prišli k nam.
Robin Bloor: V redu, prenesel te bom k Rebeki, ker se občinstvo trudi priti do tebe.
Rebecca Jozwiak: Da, tu imamo veliko res dobrih vprašanj občinstva. In David, ta je bil posebej zasnovan zate. To je od nekoga, ki ima očitno nekaj izkušenj z ljudmi, ki zlorabljajo poizvedbe, in nekako pravi, da bolj ko uporabnikom omogočamo, težje je upravljati odgovorno uporabo računskih virov. Ali se lahko branite pred širjenjem napačnih, a pogostih poizvedbenih fraz?
David Crawford: Ja, vidim to vprašanje. To je veliko vprašanje - takšno, ki jo dobimo precej pogosto. Sama sem že videla bolečino v prejšnjih podjetjih, kjer morate usposobiti uporabnike. Na primer, "To je tabela dnevnikov, dnevniki se vračajo dolga leta. Če boste na to mizo napisali poizvedbo, se morate resnično omejiti po datumu. "Torej, na primer, to je usposabljanje, ki sem ga opravil v prejšnjem podjetju, preden sem dobil dostop do baze podatkov.
Obstaja nekaj načinov, kako poskušati to rešiti. Rekel bi, da menim, da so podatki dnevnika poizvedb resnično dragoceni za njihovo reševanje. To daje še en vpogled glede na to, kaj baza podatkov počne s svojim načrtovalcem poizvedb. In to, kar počnemo, je ena od teh intervencij - imamo ročne posege, ki sem jih pokazala, in to je koristno, kajne? Tako lahko na primer pri določenem pridruževanju rečete: "Opustimo to." Ko se prikaže pametno, bo imel veliko rdečo zastavo. Torej, to je en način poskušanja do ljudi.
Druga stvar, ki jo počnemo, je avtomatizirana v času izvedbe intervencij. To bomo dejansko uporabili drevo razčlenitve poizvedbe, preden ga zaženemo, ali vsebuje določen filter ali nekaj drugih stvari, ki jih počnemo tudi tam. Toda ena najdragocenejših in najpreprostejša za razlago je, ali vsebuje filter? Tako kot tisti primer, ki sem ga pravkar navedel, mora ta dnevniška tabela, če jo boste poizvedovati, imeti časovno obdobje, na strani tabele lahko določite, da določite, da se uporabi filter filtra. Če nekdo poskuša izvesti poizvedbo, ki ne vključuje tega filtra, jih bo dejansko zaustavil z velikim opozorilom in rekel: "Verjetno bi morali v svojo poizvedbo dodati nekaj SQL-a, ki je videti tako." hočejo. Ne bomo jim popolnoma prepovedali uporabe - tudi poizvedba mora na koncu dneva izvajati poizvedbe. Toda pred njimi postavimo precej veliko oviro in jim damo predlog, konkreten uporaben predlog za spremembo poizvedbe za izboljšanje njihove uspešnosti.
To dejansko storimo tudi samodejno v nekaterih primerih, spet z opazovanjem dnevnika poizvedb. Če vidimo, da nekaj res velikega odstotka poizvedb v tej tabeli izkoristi določen filter ali določeno pridružitveno klavzulo, bomo to dejansko pojavili. To bomo promovirali v intervencijo. Pravzaprav se mi je zgodilo v notranjem naboru podatkov. Imamo podatke o strankah in uporabniške identifikacijske številke, vendar je ID uporabnika nastavljen, saj je nekako - uporabniške identifikacijske številke imamo pri vsaki stranki. Ni edinstven, zato ga morate povezati z ID-jem stranke, da dobite edinstven pridružitveni ključ. In sem pisal poizvedbo in poskušal nekaj analizirati in se je pojavilo in rekel: "Hej, zdi se, da se vsi drugi pridružijo tem tabelam tako z ID-jem stranke kot z ID-jem uporabnika. Ali ste prepričani, da tega ne želite storiti? "In to me je pravzaprav ustavilo pri napačni analizi. Torej deluje tako za natančnost analize kot tudi za uspešnost. Tako se lotimo te težave.
Rebecca Jozwiak: To bi se mi zdelo učinkovito. Rekli ste, da ne boste nujno blokirali ljudi, da bi privabljali vire, ampak jih boste nekako naučili, da tisto, kar počnejo, morda ni najboljše, kajne?
David Crawford: Vedno domnevamo, da uporabniki niso zlonamerni - dajte jim najboljše namene - in skušamo biti na ta način precej odprti.
Rebecca Jozwiak: V redu. Tu je še eno vprašanje: »Kakšna je razlika med upraviteljem kataloga, kot je vaša rešitev, in orodjem MDM? Ali pa se dejansko zanaša na drugačno načelo s širjenjem izbire poizvedbenih tabel, medtem ko bi MDM to storil samodejno, vendar z isto osnovno nalogo zbiranja metapodatkov. "
David Crawford: Ja, mislim, da je primarna razlika filozofska, ko gledam tradicionalne rešitve MDM. Vse je v tem, kdo je uporabnik. Nekako tako, kot sem rekel na začetku svoje predstavitve: Alation, mislim, ko smo bili ustanovljeni, smo bili ustanovljeni z namenom, da analitikom omogočimo več vpogleda, hitrejšega njihovega ustvarjanja, bolj natančnega v vpogledu pridelati. Mislim, da to nikoli ni bil cilj tradicionalne rešitve MDM. Te rešitve so ponavadi namenjene ljudem, ki morajo pripravljati poročila o tem, kateri podatki so bili zajeti v PKS ali interno za kakšen drug namen revizije. Včasih lahko to omogoči analitikom, vendar je pogosteje, če bo omogočil praktik v svojem delu, bolj verjetno, da bo omogočil arhitektu podatkov, kot je DBA.
Ko razmišljate o stvareh z vidika analitika, takrat začnete graditi orodje za poizvedbe, ki ga orodje MDM nikoli ne bi storilo. Takrat začnete razmišljati o uspešnosti in natančnosti ter o razumevanju, kakšni podatki se nanašajo na moje poslovne potrebe. Vse te stvari so stvari, ki nam nekako padajo na pamet, ko oblikujemo orodje. Vključuje se v naše algoritme iskanja, gre v postavitev kataloških strani in v zmožnost prispevanja znanja iz vse organizacije. Gre v dejstvo, da smo zgradili orodje za poizvedbe in da smo katalog vgradili neposredno vanj, zato mislim, da iz tega res izvira. Katerega uporabnika imate najprej v mislih?
Rebecca Jozwiak: V redu, dobro. To je res pomagalo razložiti. ki je umrl, da bi dobil arhiv, ker je moral oditi, a si je resnično želel, da bi odgovoril na njegovo vprašanje. Dejal je, da je bilo v začetku omenjeno, da obstaja več jezikov, toda ali je SQL edini jezik, ki se uporablja v komponenti Compose?
David Crawford: Da, to je res. In ena izmed stvari, ki sem jih opazil, ko sem bil priča eksploziji različnih vrst podatkovnih baz, baz dokumentov, baz podatkov grafov, ključnih skladišč vrednosti, je, da so resnično močne za razvoj aplikacij. Tam lahko posebne potrebe zadovoljujejo na boljše načine, kot jih lahko omogočajo relacijske baze podatkov.
Ko pa jih vrnete v analizo podatkov, ko jih vrnete nazaj - ko želite te podatke posredovati ljudem, ki bodo delali ad hoc poročanje ali ad hoc kopanje v podatke, se vedno vrnejo v relacijsko povezavo vsaj vmesnik za ljudi. Del tega je samo zato, ker je SQL lingua franca za analizo podatkov, tako da to za ljudi pomeni tudi orodja, ki se integrirajo. Mislim, da je to razlog, da je SQL v Hadoopu tako priljubljen in da je toliko poskusov reševanja, ker to na koncu dneva ljudje vedo. Verjetno je na milijone ljudi, ki vedo, kako napisati SQL, in ne bi si upal milijonov, ki bi znali napisati okvirno poizvedbo o cevovodu po Mongo. In da je to standardni jezik, ki se uporablja za integracijo na resnično široko paleto platform. Torej vse, kar govorimo, smo zelo redko pozvani, da gremo zunaj njega, ker je to večina vmesnikov, ki jih uporablja večina analitikov, in to je kraj, kamor smo se osredotočili, zlasti v Compose, da smo se osredotočili na pisanje SQL.
Rekel bi, da je podatkovna znanost kraj, kjer se lotijo največ zunaj, zato se občasno zastavljamo vprašanja o uporabi Pig ali SAS. To so stvari, ki jih v Compose zagotovo ne obravnavamo in ki jih želimo zajeti v katalog. Vidim tudi R in Python. Imamo nekaj načinov, da smo naredili vmesnike, po katerih lahko uporabite poizvedbe, zapisane v Alation, znotraj skript R in Python, tako da pogosto, ko ste podatkovnik in delate v skriptnem jeziku, izvorni podatki so v relacijski podatkovni bazi. Začnete s poizvedbo SQL in jo nato še obdelate in ustvarite grafe znotraj R in Pythona. Naredili smo pakete, ki jih lahko uvozite v tiste skripte, ki potegnejo poizvedbe ali rezultate poizvedb iz Alation, tako da boste tam lahko imeli mešan potek dela.
Rebecca Jozwiak: V redu, super. Vem, da smo malo končali mimo vrha ure, samo še eno vprašanje bom postavil. Vem, da ste govorili o vseh različnih sistemih, s katerimi se lahko povežete, toda ko gre za podatke, ki gostijo zunanje podatke in podatke, ki jih gostijo, ali jih je mogoče skupaj iskati v enem samem pogledu, na vašo eno platformo?
David Crawford: Seveda. Obstaja nekaj načinov za to. Mislim, zunaj gosti, si predstavljam, poskušam razmišljati, kaj bi to lahko pomenilo. To bi lahko pomenilo bazo podatkov, ki jo nekdo gosti v AWS. To bi lahko pomenilo javni vir podatkov iz data.gov. Neposredno se povežemo z bazami podatkov, tako da se prijavimo tako kot druga aplikacija z, z računom baz podatkov in tako izvlečemo metapodatke. Če imamo račun in imamo odprta omrežna vrata, lahko pridemo do njega. In potem, ko teh stvari nimamo, imamo nekaj, kar imenujemo navidezni vir podatkov, kar vam omogoča, da v bistvu potisnete dokumentacijo, bodisi samodejno, tako da napišete svoj priključek ali ga izpolnite tako, da naredite tako kot nalaganje CSV, za dokumentiranje podatkov poleg vaših notranjih podatkov. To se vloži v iskalnik. Postane referenčno v člankih in drugi dokumentaciji ter pogovorih znotraj sistema. Tako ravnamo, ko se ne moremo neposredno povezati s sistemom.
Rebecca Jozwiak: V redu, to je smiselno. Samo še eno vprašanje ti bom izstrelil. En udeleženec je sprašuje: "Kako je treba potrditi, preveriti ali vzdrževati vsebino kataloga podatkov, ko se posodabljajo izvorni podatki, spreminjajo se izvorni podatki itd."
David Crawford: Ja, to je vprašanje, ki ga dobimo veliko, in mislim, da ena izmed stvari, ki smo - ena izmed naših filozofij, kot sem rekel, ne verjamemo, da so uporabniki zlonamerni. Predvidevamo, da poskušajo prispevati najboljše znanje. Ne bodo vstopili in namerno zavajali ljudi glede podatkov. Če je težava v vaši organizaciji, morda Alation ni pravo orodje za vas. Če pa uporabniki prevzamete dobre namene, potem o tem razmišljamo kot o nečem, kje pridejo posodobitve, in navadno to, kar počnemo, postavimo upravitelju za vsak podatkovni objekt ali za vsak del podatkov. In te nadzornike lahko obvestimo, ko se spremenijo metapodatki, in lahko na ta način ravnajo. Opazijo, da prihajajo posodobitve in jih potrdijo. Če nimajo prav, jih lahko vrnejo in spremenijo ter obvestijo in upajo celo na uporabnika, ki je prispeval informacije in jim pomagajo pri učenju.
To je primarni način, kako razmišljati o tem. Tovrstni predlogi množice in vodstva s strani upravnikov, zato imamo okoli tega nekaj zmogljivosti.
Rebecca Jozwiak: V redu, dobro. In če bi ljudem lahko le sporočili, kako lahko najbolje začnejo z Alationom, in kam bi lahko šli posebej, da bi dobili več informacij. Vem, da si delil en bit.ly. Je to najboljše mesto?
David Crawford: Alation.com/learnmore Mislim, da je to odličen način. Če se želite prijaviti na demo, ima spletna stran Alation.com veliko odličnih virov, belih dokumentov in novic o naši rešitvi. Zato mislim, da je to odličen kraj za začetek. Lahko tudi po e-pošti.
Rebecca Jozwiak: V redu, super. Vem, udeleženci, žal mi je, če danes nisem dobil vseh vprašanj, če pa ne, jih bodo poslali Davidu ali njegovi prodajni ekipi ali nekomu v podjetju Alation, tako da zagotovo lahko pomagajo odgovoriti na vaša vprašanja in pomagati razumeti kaj počne Alation oziroma kaj najbolje počnejo.
In s tem, ljudje, grem naprej in nas podpišem. Arhiv lahko vedno najdete na strani InsideAnalysis.com. Najdete ga tudi na Techopedia.com. Ponavadi se posodabljajo nekoliko hitreje, zato to vsekakor preverite. In najlepša hvala Davidu Crawfordu, Dezu Blanchfieldu in Robinu Booru danes. Bila je odlična spletna oddaja. In s tem se bom poslovil od vas. Hvala, ljudje. Adijo.
David Crawford: Hvala.