Avtor osebja Techopedia, 8. junij 2016
Odvzem: Voditelj Eric Kavanaugh s strokovnjaki Dez Blanchfield, Robin Bloor in Bert Scalzo razpravlja o novostih v tehnologiji baz podatkov.
Trenutno niste prijavljeni. Če si želite ogledati video, se prijavite ali prijavite.
Eric Kavanagh: Gospe in gospodje, sreda je ob štirih vzhodnih urah. Sem v New Orleansu, prihaja poletje, to pomeni, da je vroče! Čas je za Hot Technologies, da, res, da. Moje ime je Eric Kavanagh, jaz bom vaš gostitelj. Tukaj bom vrgel žogo za Hot Technologies. Danes je tema "Naprej, zagon: premik relacijskega onkraj tradicionalnega." Ljudje, danes imamo na telefonu tri strokovnjake iz baze podatkov, zato vsa vprašanja, ki jih imate, pošljite jim težka, ne bodite sramežljivi. Za vas imamo danes kup dobrih vsebin. Tu je spot o tvojem resnično, dovolj o meni. Seveda je letos vroče. V tej oddaji, ki je partnerstvo z našimi prijatelji iz Techopedije, govorimo o vročih tehnologijah. In danes gremo vse do temelja upravljanja informacij, kar je seveda baza podatkov. Govorili bomo o tem, kako smo prišli sem, kaj se dogaja danes in kaj se dogaja naprej. Veliko zelo zanimivih stvari se dogaja.
Očitno imamo res nekaj novosti v prostoru baz podatkov. Nekaj časa je bilo nekako tiho; Če se pogovarjate z nekaterimi analitiki v podjetju, bi verjetno rekel, da se bodo leta, 2005, 2009 ali 10, verjetno zdela, da se na področju inovacij ne dogaja preveč. In kar naenkrat je samo izbruhnilo, kot je pobeg iz zapora ali kaj podobnega, in zdaj se dogajajo vse vrste zanimivih stvari. Veliko tega je zaradi obsega spleta in vseh kul spletnih lastnosti, ki počnejo različne zanimive stvari. Od tod je prišel koncept NoSQL. In to pomeni dve različni stvari: ne pomeni nobenega SQL-a, saj v njem ne podpira SQL, pomeni tudi ne samo SQL. Nekateri ljudje uporabljajo izraz "NewSQL". Toda očitno je SQL - strukturiran jezik poizvedb - resnično temelj, je osnova poizvedovanja.
In zanimivo je, da so se vsi ti motorji NoSQL, kaj zgodili? No, izšla sta, nad njo je bilo veliko navdušenja, nato pa nekaj let pozneje, kaj vse smo začeli slišati? Oh, SQL v Hadoopu. No, vsa ta podjetja so začela vtikati SQL vmesnike na svoja orodja NoSQL in vsak, ki je v programskem svetu, ve, da bo to povzročilo nekatere izzive in težave, nekatere križane žice in tako naprej. Tako bomo danes izvedeli veliko teh stvari.
Tam so naši trije predstavniki: iz Sydneya je poklical Dez Blanchfield, naš lastni Robin Bloor, ki je v Teksasu, in Bert Scalzo, je tudi v Teksasu. Torej, najprej se bomo slišali od Deza Blanchfielda. Ljudje bomo tvitnili na hashtag #HotTech, zato vas prosimo, da pošljete svoje komentarje ali pošljete svoja vprašanja prek komponente Q&A na konzoli za spletno oddajanje ali celo skozi okno za klepet. In s tem, Dez Blanchfield, vzemi ga.
Dez Blanchfield: Hvala, Eric. Zdravo vsi. Tako bom poskušal postaviti sceno na 30.000 metrov visok pogled na to, kar se je zgodilo v zadnjem desetletju, in pomembne premike - ali vsaj desetletje in pol - sistemov za upravljanje podatkovnih baz in nekaterih vplivov s komercialnega ali tehničnega vidika ter nekaterih trendov, ki smo jih prepozno prežali, in nas vodijo v pogovor, o katerem bomo danes govorili.
Moja podoba naslovnice je peščena sipina, in od zgoraj na njej piha drobne koščke peska. Kot rezultat tega se zgodi, da peščena sipina počasi prehaja iz enega prostora v drugega. In to je neverjeten pojav, kjer se dejansko gibljejo te velike 40- in 50-metrske visoke peščene gore. In premikajo se zelo počasi, vendar se zagotovo premikajo, in ko se premikajo, spreminjajo pokrajino. In čisto nekaj je treba gledati, če sploh preživite čas na območju, kjer so peščene sipine naravna stvar. Ker lahko nekega dne pogledate skozi okno in spoznate, da se je ta množična gora peska, majhna drobna zrna pravzaprav premaknila sama od sebe in da jo veter počasi prestavlja z enega kraja na drugega.
In mislim, da je v mnogih sistemih baz podatkov že dolgo časa. Še do pred kratkim, tisti zelo majhen premik v obliki peščenih zrn, ki premika velikansko goro peska v obliki peščene sipine. Skozi leta je prihajalo do majhnih premikov na platformah baz podatkov, in to je bilo dokaj stabilno in trdno okolje okoli sistemov in platform podatkovnih baz, skozi mainframe dobe srednjega obsega. Vendar smo se pozno zgodili, da se je s komercialnimi potrebami in našimi tehničnimi gonilniki zgodilo nekaj precej pomembnih stvari. Skozi te bom šel skozi njih.
Po mojem mnenju je osnovni koncept baze podatkov, kot smo ga poznali že vrsto let, in kot ste morda slišali na pasti pred nastopom, sta naša dva strokovnjaka, ki sta danes na klicu z menoj, živela v ta prostor in prav imata pravico do deljenja hvalisnih pravic, da so tam, ko se je vse začelo v zgodnjih 80-ih. Toda v zadnjem desetletju in malo smo videli ta velik premik in hitro nas bo prehodil, preden ga izročim doktorju Robinu Bloorju.
Preživeli smo to, kar jaz imenujem, "večje, boljše, hitrejše, cenejše" izkušnje. Kot sem že rekel, definicija baze podatkov se je spremenila. Pokrajina, v kateri so platforme baz podatkov morale obravnavati uspešnost ter tehnične in komercialne zahteve, se je tudi spremenila. Opazili smo povečano povpraševanje po rešitvah, ki se spopadajo s kompleksnejšimi komercialnimi ali s kompleksnejšimi tehničnimi zahtevami. In tako hitro pogledam, kaj to dejansko pomeni, v mislih je, da smo se nekako uvrstili v 90. leta, in videli smo, da tehnologija baze podatkov vpliva na uvedbo interneta, in na tisto, kar smo poklicali takrat internet lestvica. Nismo govorili samo o ljudeh, ki sedijo pred terminali, prvotno so bili podobni teleletnim terminalom z vgrajenimi fizični tiskalniki in 132 stolpci besedila, ki izhajajo v papirju. Nato se zgodnji terminali za zeleni zaslon prebijajo s tipkovnicami.
Ampak veste, naš svet so bili terminali in serijski kabli ali omrežni kabli, ki so se dolgo pogovarjali z računalniki. Potem je prišel internet in ta eksplozivna rast povezanosti, da vam ni treba več vtikati v računalnik. Če želite priti do sistema baz podatkov, ste pravkar potrebovali spletni brskalnik. Tehnologija baz podatkov se je morala dramatično spremeniti, da bi se spopadla z obsegom vsega, od osnovnih tehnologij iskalnikov, ki so bile uporabljene za indeksiranje sveta, in shranjevanja indeksa informacij, na primeru lestvice zapisa baze podatkov. In ljudje, kot sta Google in drugi, so zagotovili platformo za to. Izdelane so bile vse nove vrste shranjevanja podatkov ter poizvedovanja in indeksiranja. In potem smo imeli glasbena spletna mesta in spletna mesta filmov.
Potem pa smo v 2000-ih zaznali razmah dot-com in to je povzročilo še bolj dramatično eksplozijo števila ljudi, ki uporabljajo sisteme, ki jih je nenehno poganjala baza podatkov neke oblike. Na tej stopnji so relacijske baze podatkov še vedno kos večini obremenitev, le naložili smo jih v večje kositre in nekako smo šli v zelo, zelo, zelo velike sisteme srednjega obsega, ki poganjajo Unix platforme od ljudi, kot so IBM in Sun itd. . Razpon dot-com je stvari le povečal in pospešil s strojne, z vidika zmogljivosti in prišlo je do nekaj pomembnih sprememb v motorjih baz podatkov, po drugi strani pa je bilo to še vedno isto, kar smo videli pri dolgo časa.
In potem smo dobili to obdobje spleta 2.0, kot ga imenujemo. In to je bil pošastni premik, ker smo kar naenkrat potrebovali veliko enostavnejše platforme baz podatkov in moralo je obstajati lestvica v vodoravni obliki. In to je bil tako pomemben premik v načinu, da smo pristopili k ideji, kaj je baza podatkov. Po mojem mnenju se še vedno dohitevamo. In zdaj se ukvarjamo s to celotno tremo, in pravim, da s pozitivno zavrtenjem, ne z negativno konotacijo, s tem tresenjem tega, kar imenujemo veliki podatki, in z ogromno eksplozijo, pri čemer mislim na eksplozijo. To nezaslišano premikanje navpično na grafu števila možnosti, ki jih imamo, ko govorimo o zbirki podatkov, in neke oblike zmožnosti relacijskega poizvedovanja.
In kar je zanimivo, osebno sem mnenja, da mislim, da so veliki podatki res samo vrh ledene gore. Navadno se nekoliko navdušimo nad vplivom velikih podatkov in vrstami odločitev, ki jih imamo na voljo zdaj. Vse imamo iz NoSQL motorjev, imamo grafične motorje, imamo vse te različne vrste platform, na katere lahko metamo podatke in z njimi počnemo stvari. Celo do trenutka, ko sem pravzaprav eden prvih pogovorov, ki sem jih imel z Ericom Kavanaghom, ki je danes tukaj z nami, potekal okoli pogovora o stvari, imenovani Apache Drill, ki je odprtokodni projekt, ki vam omogoča poizvedovanje podatki znotraj modela različnih vrst podatkov: vse od surovih datotek CSE, ki sedijo na trdem disku, do datotečnih sistemov HDFS v petabajtnem merilu. In veste, omogoča vam izvajanje teh poizvedb v slogu SQL po strukturiranih in nestrukturiranih podatkih vseh vrst razburljivih rastlin.
Kmalu bomo videli, da bo "pametna stavba" postala stvar, in radi bi mislili, da imamo pametne zgradbe varnosti in upravljanja toplote, vendar govorim o pametnih stavbah, ki vedo veliko več o tem, kdo ste in kje ste, ko vstopate in počnete vse vrste čednih stvari na tej ravni, do pametnih mest - celotnih ekosistemov na ravni mest -, ki znajo pametno delati stvari. In poleg tega imamo to neverjetno stvar, za katero mislim, da je nihče na svetu ni povsem dojemal, in to je oblika interneta stvari. Po mojem mnenju so se v zadnjih desetletjih zgodile vse te različne spremembe, nekoliko, morda dve desetletji, ki so nekako vplivale na svet, kar štejemo v baze podatkov.
Kar nekaj pomembnih stvari je omogočilo to. Stroški trdih diskov so se drastično znižali, in to je v mnogih pogledih omogočilo vožnjo nekaterih referenčnih arhitektur, kot je model Hadoop, saj vzamemo veliko podatkov in jih razširimo na veliko trdih diskov in delajte pametne stvari z njim. V bistvu je tisto, kar je po mojem mnenju postalo strmo v relacijski bazi podatkov ali tradicionalnem modelu enote DB. In RAM je postal zelo, zelo poceni in to nam je dalo povsem novo priložnost, da se igramo z različnimi referenčnimi arhitekturami, kot je na primer spomin, in počnemo stvari, kot so razdelitev na zelo, zelo velike gruče podatkov.
In tako nam je dal to majhno sliko, ki si jo zdaj ogledujemo, to je diagram, ki prikazuje vrste platform, ki so na voljo, če ste v veliki podatkovni pokrajini. In to je zelo, zelo težko brati, in razlog za to je le preveč informacij o tem. Obstaja toliko možnosti za izdelavo, modeliranje in izdelavo načinov, kako podatke vnesti v sisteme baz podatkov katere koli oblike in jih poizvedovati ter narediti tradicionalno branje-zapisovanje. In niso vsi kompatibilni, pravzaprav jih zelo malo sploh ustreza vsem osnovnim standardom sloga, vendar še vedno veljajo za bazo podatkov. In pokazal vam bom nekaj zaslonov v sekundi, da vam predstavim nekaj konteksta, kaj mislim o premiku z 90-ih in internetne lestvice, na splet 2.0, nato pa celotno rast prek velikih podatkov. Če menimo, da je ta pokrajinski grafikon velike podatkovne tehnologije navdušujoč, ker je na njem veliko možnosti, poglejmo samo eno ključno navpičnico.
Poglejmo marketinško tehnologijo. Tu so možnosti za sisteme za upravljanje podatkovnih baz ali za upravljanje podatkov znotraj samo mar-tech prostora, torej tehnologija, povezana s trženjem. Zdaj je bilo to leta 2011, torej nekaj let nazaj; pred petimi leti je tako izgledala pokrajina. Če na kratko vrnem en diapozitiv, tako izgleda današnja podatkovna pokrajina v različnih blagovnih znamkah in ponudbah, ki jih imamo v bazi podatkovnih tehnologij. Tako je izgledala ena vertikala pred petimi leti, ravno v marketinški tehnologiji.
Zdaj, če grem na današnji pogled, je tako videti, in to je povsem neopazno. Ravno ta stena blagovnih znamk in možnosti in tisoči in tisoče kombinacij programske opreme, za katere velja, da spadajo v razred baz podatkov, lahko zajemajo, ustvarjajo ali shranjujejo in pridobivajo podatke v različnih oblikah. In mislim, da zdaj vstopamo v zelo, zelo zanimiv in pogumen čas, kjer bi nekoč lahko poznali glavne blagovne znamke, lahko poznali pet ali šest različnih platform iz Oracle in Informix, DB2 in tako naprej, in bili skoraj strokovnjak za vse znamke, ki so bile na voljo pred približno 20 leti. Pred desetimi leti je postalo nekoliko lažje, ker so nekatere blagovne znamke odpadle in niso se vse blagovne znamke spoprijele z obsegom dot-com booma, nekatera podjetja pa so se samo zlomila.
Danes je popolnoma nemogoče biti strokovnjak za vso tehnologijo baz podatkov, ki je, ne glede na to, ali gre za relacijske baze podatkov ali standardne platforme za upravljanje baz podatkov, ki smo jih poznali v zadnjih nekaj desetletjih. Lahko pa tudi bolj sodobni motorji, kot je Neo4j in ti tipi. In zato mislim, da vstopamo v zelo pogumen svet, kjer je na voljo veliko možnosti, in imamo platforme v merilu na vodoravni podlagi, bodisi v pomnilniku bodisi na disku. Mislim pa, da je čas, ki je potreben za tiste, ki odločajo o tehnologiji in poslovnih odločitvah, saj morajo sprejeti nekaj zelo velikih odločitev glede tehnoloških paketov, ki so v nekaterih primerih že v bistvu več mesecev. Osemnajst mesecev za nekatere bolj vznemirljive in nove odprtokodne platforme baze podatkov zdaj ni strašljiva številka. In začnejo združiti platforme in postanejo še novejše in bolj razburljive.
Mislim, da se bomo danes pogovarjali o tem, kako je vse to vplivalo na tradicionalne platforme podatkovnih baz in kako se nanje odzivajo ter o vrstah tehnologij, ki se na to vržejo. In glede na to bom zdaj prenesel doktorja Robina Bloorja in dobil njegov vpogled. Robin, do tebe.
Robin Bloor: V redu, hvala za to. Ja, to je preveč velika tema. Mislim, če bi ravnokar vzel drsnik ene od ilustracij, ki vam jo je pokazal Dez, bi se lahko pogovarjal o enem izmed drsnikov. Ampak veste, lahko greste v bazo podatkov - baze podatkov, ne vem, že od osemdesetih let, in lahko na bazo gledate na različne načine. In ena izmed stvari, za katero sem si mislil, da bom to storil, je danes samo vrgel v pogovor, da govorim o tem, zakaj so se na ravni strojne opreme zgodile moteče stvari. In morate upoštevati, da se je na ravni programske opreme dejansko zgodilo tudi veliko motečih stvari, tako da to ni popolna slika ničesar, to je samo strojna stvar.
Tudi dolgo se ne bom pogovarjal, želel sem vam samo sliko o strojni opremi. Baza podatkov je bila zmogljivost iskanja podatkov, ki segajo v CPU, pomnilnik in disk, in to se dramatično spreminja. Razlog, da to trdim, je bil ta, da sem se naučil razumeti bazo z vidika tega, kar ste pravzaprav počeli. Veste, razlika med zamudami je med podatki, ki so dejansko v CPU-ju, in podatki, ki se v procesor vlečejo iz pomnilnika, in podatki, ki se vlečejo z diska v pomnilnik, in prek CPU-ja. In stare arhitekture baz so to le poskušale uravnotežiti. Veste, samo govorili so: "To gre zelo počasi, predpomnili bomo podatke na disk, tako da so v spominu. To bomo poskušali narediti na zelo natančen način, tako da bo res dober delež podatkov, ki jih zahtevamo, že v spominu. Podatke bomo prenesli v procesor tako hitro, kot dejansko lahko. "
In baze podatkov so bile napisane v starih časih, stroji so napisani za majhne skupine. In zdaj zaradi nevednosti paralelizma. Ker če boste neko skupino iztrgali, boste morali narediti različne stvari vzporedno. Vzporednost je del igre, nič takega, kot je zdaj. Samo sprehodil se bom po tem, kar se je zgodilo.
Najprej disk. No disk je res končan. Kar zadeva baze podatkov, je skorajda konec. Mislim, da obstaja veliko kontekstov za arhiviranje podatkov, in celo zelo velika podatkovna jezera tečejo na Hadoopu, najslabši vrtijoči disk je danes verjetno izvedljiv. Res je bila težava vrtečega se diska v tem, da se hitrosti branja niso posebej izboljšale. In ko je procesor dvigal Moore-ove zakonske hitrosti, nekakšen vrstni red, hitrejše vsakih šest let. In spomin je nekako spremljal, potem sta se ta dva razumno držala korak med sabo, ni bilo povsem gladko, a sta.
Toda naključno branje na disku, kjer glava leti okoli diska, mislim, razen vsega drugega, gre za fizično gibanje. In če delate naključno branje z diska, je neverjetno počasen v primerjavi z branjem iz pomnilnika, je kot 100.000 krat počasnejši. In pred kratkim je bila večina arhitektur baz podatkov, ki sem si jih ogledal v kateri koli globini, pravzaprav samo serijsko branje z diskov. Resnično želite, da na tak ali drugačen način samo predpomnite kolikor lahko z diska in ga potegnete s te počasne naprave in postavite na hitro napravo. In obstaja veliko pametnih stvari, ki jih lahko naredite s tem, vendar je nekako konec.
In trdni diski ali bliskovni diski resnično to, kar so, zelo hitro zamenjajo predenje. In to se spet popolnoma spremeni, saj je način organiziranja podatkov na disku organiziran glede na način, kako deluje disk. Dejansko gre za glavo, ki se premika po predilni površini, pravzaprav več glavic, ki se premikajo po več vrtečih se površin, in zbiranje podatkov, ko gredo. Pogon SSD je le blok stvari, ki jih lahko preberete. Mislim, prva stvar je, da so bile vse tradicionalne baze podatkov zasnovane za predenje diska in so jih zdaj ponovno zasnovale za SSD. Nove baze podatkov lahko verjetno vsakdo, ki trenutno piše novo bazo podatkov, verjetno prezre vrteči disk, sploh ne razmišlja o tem. Toda Samsung, glavni proizvajalec SSD-jev, nam pravi, da so SSD-ji dejansko na krivulji Mooreovega zakona.
Bili so že trikrat ali štirikrat hitrejši od vrtečega se diska, zdaj pa bodo vsakih 18 mesecev postali precej hitrejši. Dvojna v hitrosti in 10-kratna hitrost do približno šest let. Če bi bilo to samo to, pa ni to, kot vam bom povedal v trenutku. Spinning disk seveda postaja arhivski medij.
Glede spomina. Najprej stvari, RAM. Razmerje med CPU-jem na CPU-jem ves čas narašča. In to seveda na nek način prinaša veliko večjo hitrost, saj lahko hektarji spomina, ki jih lahko imate zdaj, shranijo veliko več. To pravzaprav je, da nekako zmanjša pritisk na MLTP vrste aplikacij ali naključne branje aplikacij, ker je lažje poskrbeti za njih, ker imaš zdaj veliko pomnilnika in na ta način lahko predpomniš karkoli, kar je verjetno prebrana v spomin. Toda imate težave z večjim naborom podatkov, tako veliki podatki pravzaprav niso tako preprosti.
In potem imamo Intel s 3D Xpoint, IBM pa s tem, kar imenujejo PCM, kar je pomnilnik faznih sprememb, dostavlja nekaj, za kar verjamejo, da je - no, vsaj 10-krat hitreje od trenutnih SSD-jev, in verjamejo, da bo dobil zelo blizu, da je enaka hitrost kot RAM. In seveda manj drago. Prej ste imeli to strukturo baze podatkov CPU, pomnilnika in diska, zdaj pa gremo k strukturi, ki ima štiri plasti. Na voljo je CPU, pomnilnik ali RAM, nato pa še takšen hitrejši pomnilnik SSD, ki je pravzaprav nehlapen in nato SSD. In te nove tehnologije so nehlapne.
In tu je HP-jev memorial, ki ga še ni, veste, saj je bil objavljen pred približno sedmimi leti, vendar še ni prikazan. Toda govorice, ki jih slišim, so, da bo HP malo spremenil igro tudi z memistorjem, tako da boste imeli samo novo situacijo s spominom. To ni tako, da imamo hitrejše stvari, kot da imamo povsem nov sloj. In potem smo dobili dejstvo, da dostop do SSD-ja lahko preberete vzporedno. Vretena ne morete brati vzporedno, razen če imate veliko različnih vrtečih se diskov. Ampak blok SSD, lahko dejansko berete vzporedno. In ker lahko to preberete vzporedno, gre veliko hitreje od svojih preprostih hitrosti branja, če dejansko nastavite več procesov v različnih procesih v enem CPU-ju in ga le imate s SSD-jem.
Po ocenah lahko s tem dosežete skoraj do hitrosti RAM-a. In kaj vse to pravi, je prihodnost arhitekture spomina nejasna. Mislim, resničnost je, da bodo različni prevladujoči prodajalci, za koga se izkažejo, verjetno določili smer strojne opreme. Toda nihče ne ve, kam gre v tem trenutku. Govoril sem z nekaterimi inženirji podatkovnih baz, ki pravijo: "Ne bojim se dogajanja", vendar ne vedo, kako to optimizirati pred začetkom vožnje. In vedno si nekako, tako da je zanimivo.
In potem je CPU. No, večjedrni procesorji niso bili samo večjedrni procesorji. Imamo tudi veliko količino predpomnilnikov L1, L2 in L3, zlasti L3, kar je, ne vem, več deset megabajtov. Tam lahko veliko daste, veste. In zato lahko čip dejansko uporabite kot sredstvo za predpomnjenje. To je spremenilo igro. In gotovo so vektorska obdelava in stiskanje podatkov to storili že številni prodajalci, ki so te stvari vlekli v procesor, da bi vse hitreje potekalo v CPU-ju. Potem dobite dejstvo, da so CPU z GPU res dobri v pospeševanju analitike. In res so dobri v določenih vrstah poizvedb, samo odvisno je od vaše poizvedbe.
Lahko ustvarite plošče s CPU-jem in GPU-jem ali, kot to počne AMD trenutno, ustvarite nekaj, imenovano APU, ki je neke vrste poroka CPU-ja in GPU-ja; ima na voljo obe vrsti zmogljivosti. Torej, to je drugačna vrsta procesorja. In potem je nedavna objava podjetja Intel, da bodo postavili FPGA na čip, tako ali tako naredila mojo glavo. Mislil sem si: "Kako bi se to zgodilo?" Ker če imaš možnost CPU-ja, GPU-ja in imate možnost CPU-ja, FPGA - in mimogrede, če res želite, lahko na isto ploščo postavite CPU in GPU ter FPGA. Nimam pojma, kako bi pravzaprav kaj naredili na tak način, vendar vem za podjetja, ki delajo take stvari, in dobivajo zelo, zelo hitre odgovore na poizvedbe. To ne bo prezrto, to bodo uporabljali uveljavljeni prodajalci in morda novi ponudniki. DBMS-ji so bili vedno vzporedni, zdaj pa so vzporedne možnosti pravkar eksplodirale, ker vam to omogoča, da to na različne načine vzporedite s tistim, s tem.
In končno, da povečate ali povečate? Povečanje obsega je res najboljša rešitev, vendar za eno stvar. Delovanje vozlišč je veliko boljše, če lahko preprosto optimizirate delovanje CPU-ja in pomnilnika na disku v enem vozlišču. In uporabili boste manj vozlišč, zato bo cenejše, kajne? In lažje bo upravljati. Na žalost gre za zasnovo, ki je odvisna od strojne opreme, in ko se strojna oprema spreminja, je to vedno manj mogoče, razen če se vaši inženirji ne bodo mogli poganjati tako hitro, kot se spreminja strojna oprema. In imate težave z delovno obremenitvijo, saj, ko povečate velikost, dajete različne predpostavke o tem, kakšen bo obseg dela.
Če spremenite lestvico, torej če vaša arhitektura poudarja lestvico, preden povečate lestvico - dejansko jih morate narediti oboje, samo poudarite eno. Potem boste dobili boljše delovanje omrežja, saj se bo z njim ukvarjala arhitektura. V strojni opremi bo dražje, ker bo več vozlišč, manj bo težav z obremenitvijo in bolj prilagodljivo oblikovanje.
In samo mislil sem, da bom to vrgel vanj, ker če dejansko pomisliš na vse spremembe strojne opreme, sem samo s prstom pokazal nanjo in potem pomislil na to, kako boš to razdelil in pomanjšal? Potem se zavedate, da so inženirji podatkovnih baz po mojem mnenju vsaj premalo plačani. Če torej samo razmišljate o strojni plasti, so izzivi baze podatkov jasni. Zdaj to prenašam Bertu, ki nas bo vsem počutil izobražene.
Eric Kavanagh: To je to! Bert?
Bert Scalzo: Najlepša hvala. Dovolite mi, da naravnost stopim v te diapozitive. Moram iti skozi veliko diapozitivov, tako da lahko na kar nekaj njih grem precej hitro. Govorili bomo o tem "Naprej, zagon: premik relacijskega onkraj tradicionalnega." To ni več baza podatkov vašega očeta. Stvari so se spremenile in kot je rekel prejšnji govorec, se je v zadnjih šestih do sedmih letih pokrajina korenito spremenila.
Sam sem baze podatkov opravljal od sredine 80-ih. Napisal sem knjige o Oracle, SQL Serverju, primerjalnih analizah in še kar nekaj drugih stvari. „Svet se spreminja zelo hitro. Veliki ne bodo več premagali majhnih. Hitro bo premagal počasi. "Dodal sem še" prilagoditi se ". To je bilo od Ruperta Murdocha. Resnično verjamem, da bo to res. Ne boste mogli delati podatkovnih baz tako, kot ste to počeli pred 10, 15, 20 leti. To boste morali storiti tako, kot si podjetje želi zdaj.
Poskušal bom ostati malo splošen pri predstavitvi, a večino funkcij, o katerih govorim, boste našli v Oracleu, v SQL Serverju, MySQL, MariaDB in nekaterih drugih velikih igralci. Revolucija relacijske baze podatkov se nekako znova strinjam s prejšnjimi govorci. Če pogledate okrog leta 2010, smo iz rdečega dirkalnika prešli v rumeni dirkalnik. Prišlo je do pomembnih sprememb in glej 2020, verjamem, da boste videli še eno korenito spremembo. Smo v zelo zanimivem času.
Zdaj je ta diapozitiv ključen, zato sem tam dal ključ. Vse te spremembe se dogajajo, na levi strani imam tehnologijo, na desni strani pa poslujem. In vprašanje je, kdo povzroča, kateri in kateri podpira? Vse te spremembe strojne opreme: diski padajo, velikost diskov narašča, nove vrste diskov, tako da so jih zajemali prejšnji zvočniki. Znižanje cene pomnilnika, vse te novejše različice baz podatkov. Toda na desni strani imamo zaščito in skladnost podatkov, shranjevanje podatkov, poslovno inteligenco, analitiko, obvezno hrambo podatkov. Obe strani enačbe sta gonilni in obe strani enačbe bosta izkoristili vse te nove lastnosti.
Najprej imamo svoj tipični vrteči disk SAS, zdaj so do 10 terabajtov. Če še niste videli, Western Digital, HGST ima tako imenovani helijev pogon, ki trenutno doseže približno 10 terabajtov. Stroški predilnih diskov postajajo precej nizki. Kot smo že omenili, lahko dobite trdne diske do približno dva terabajta, toda Samsung ima kmalu 20-terabajtno enoto. Stroški postajajo razumni. Ena stvar, o kateri bom govoril o drugih, ni, koncept bliskovnih diskov. PCIe, to je PCI Express, v primerjavi z NVMe, morda ste ali niste slišali za ta nehlapni pomnilniški izraz. V osnovi bo NVMe nadomestil SAS in SATA in je v resnici bolj komunikacijski protokol kot karkoli drugega. Ampak ti diski imajo zdaj do približno tri terabajte.
Mogoče ste že videli, da nekateri SAS-ovi pogoni prihajajo s priključki U.2, ki je nekako drugačen konektor kot SAS ali SATA, ki podpira NVMe s standardnim diskom - disk mora seveda podpirati tudi to. In potem SATA s priključki M.2 in ti začnejo dobivati NVMe. V bistvu prodajalci prenosnih računalnikov zdaj prodajajo prenosnike, ki imajo v sebi bliskovni disk NVMe, in te stvari bodo kričale v primerjavi s tehnologijo, ki ste jo uporabljali prej.
Veliko ljudi ne ve, kaj so vsi ti različni utripi. Če pogledate v spodnji desni kot, je to primer M.2. Morda boste rekli: "No, saj, to je precej podobno mSATA pogonu levo od nje." Toda kot vidite, ima dve zatiči v zatičih v primerjavi z enim in je nekoliko večji. Pa tudi M.2 lahko pride v treh različnih velikostih.
In potem bliskavice PCI Express in bliskavice NVMe. Zdaj je NVMe bliskavica tudi PCI Express, toda PCI Express je običajno še vedno algoritem krmilnika tipa SAS ali SATA, ki je bil napisan za predenje diska, NVMe pa algoritmi ali tehnike, ki so bili napisani posebej za bliskavico. In spet boste vse to videli.
NVMe ponuja kar nekaj stvari. Mislim, da sta dve največji izboljšavi, v zgornjem desnem kotu je zamuda zmanjšana za kar 70 odstotkov. Pravzaprav sem videl še višje od tega. Če poleg tega pogledate v spodnjem desnem kotu, ko se vaš operacijski sistem pogovarja z diskom NVMe, gre skozi precej manjše stopnje programske opreme. V bistvu greš skozi gonilnik NVMe, ki je zdaj vključen v operacijski sistem, in ta govori neposredno z mediji. Obstaja veliko razlogov, da bo ta tehnologija korenito spremenila svet baz podatkov.
In velikokrat bodo ljudje rekli: "No, kako hiter je NVMe?" Veste, dobri stari časi, že leta 2004 in prej, smo bili navdušeni, če bi imeli Ultra-320 SCSI, 300 megabajtov na sekundo. Današnje hitrosti, veliko vas je verjetno na vlaknih ali InfiniBandu, in takšne so zelo dobre. NVMe tam desno, začne se tam, kjer se končajo trenutne tehnologije. Kar se tiče, je to, da se PCI Express 3.0 z osempasovno povezavo začne pri skoraj 8000 in bo naraščal, ko bomo dobili novejše različice PCI Expressa, štiri različice in tako naprej. NVMe ni nikamor več, razen gor.
Katere stvari se v bazi podatkov spreminjajo? Zdaj sem v zgornjem desnem kotu diapozitivov navedel poslovne razloge, za katere mislim, da se je tehnologija pokazala. V tem primeru zaradi shranjevanja podatkov in zaradi regulativnih razlogov za obvezno hrambo podatkov baze podatkov v njih začenjajo stisniti. Zdaj nekatere zbirke podatkov ponujajo stiskanje kot dodatek, nekatere ponujajo kot vgrajeno v standardno, recimo podjetniško izdajo svoje baze podatkov, pa vendar bi nekatere baze podatkov, kot je v Oracleu, lahko celo še boljša različica stiskanja, to je recimo na njihovi platformi Exadata, tako da so pravzaprav vgradili strojno opremo, ki lahko podpira zelo specializirano stiskanje in ta, na primer, v Exadata, dobi 40-kratni stiskanje, kar je zelo pomembno. In mislim, da gre za obvezno hrambo podatkov, ljudje samo želijo podatke dlje. Podjetja, da lahko opravijo analitiko in BI, potrebujejo podatke zadnjih 5, 10, 15 let.
Zdaj je bila še ena funkcija, ki se je začela prikazovati približno v tistem obdobju 2008, 2009, in sicer je bila ločitev. Spet boste to našli v bazah podatkov, kot so Oracle, SQL Server, in v obeh tistih, ki jih morate plačati. V Oracleu morate kupiti možnost particioniranja, v SQL Serverju pa morate biti v izdaji podatkovnega centra. To je vaša tradicionalna tehnika ločitve in osvajanja, kar počnete, pa je, da imate na vrhu koncept logične velike mize in ko jo spravite na disk, se dejansko razdeli na vedra. In vidite, da so ta vedra organizirana po nekaterih merilih za ločitev, ki jih običajno imenuje vaša particijska funkcija ali jih imenujete, nato pa lahko tudi delite particije na nekaterih platformah baze podatkov in lahko greste še dlje.
Ponovno mislim, da sta tako shranjevanje podatkov in obvezno hramba podatkov to spodbudilo, v nekaterih od teh baz podatkov pa lahko imate do 64.000 particij, v nekaterih drugih zbirkah podatkov pa verjamem celo do 64.000 pod-particij. To vam omogoča, da razdelite svoje podatke na obvladljive koščke. Indekse boste tudi razdelili; to je možnost, vam ni treba, vendar lahko svoje indekse tudi razdelite. Eden od razlogov za to je lahko, da imate drsno okno s podatki. Želite obdržati podatke, vredne 10 let, vendar če želite, da indeksi padejo za nocoj s serijskim nalaganjem, vam indeksov ni treba spustiti v vsako posamezno vrstico, samo na vrstice v trenutnem vedru. Razdelitev particij je pravzaprav zelo dobro administrativno orodje, čeprav večina ljudi meni, da je njegova velika korist odpravljanje odpravljanja particij v vaših načrtih in s tem pospešitev vaših poizvedb. To je res vrsta glazure na torti.
Zdaj ste verjetno slišali za ostrenje in verjetno mislite: "No, zakaj ste postavili ta diapozitiv?" To je eno od teh NoSQL - to je eno od takšnih okolij Hadoop. Oracle 12c je izdal dva, kar še ni G8, a ki se prikaže ali predogleda, je v njem pravzaprav ostro. Imeli boste tradicionalni sistem baz podatkov, kot je Oracle, in ga boste lahko razrezali kot pri modelu Hadoop in tako boste imeli še eno tehniko ločitve in osvajanja, ki bo razdelila vaš tabela zaporedoma razvršča v razvrstitve po vozlišču in to bo - tako kot to vidite v nekaterih svojih NoSQL baza podatkov. In pravzaprav MySQL, lahko to v resnici dosežete z eno od njihovih tehnik združevanja, vendar gre za tradicionalno bazo podatkov in mislim, da Microsoft ne bo želel zaostajati. Ta dva ves čas igrata preskočna žaba, zato bi pričakoval, da se bo v naslednji verziji SQL Serverja videlo strganje.
Upravljanje življenjskega cikla podatkov, ponovno obvezno hramba podatkov, pa tudi za poslovno inteligenco in analitiko. V resnici gre za tehniko ločitve in osvajanja in običajno DBA to počnejo ročno in to je: »Letošnje podatke bom hranil na hitrih diskih, lanske podatke o nekoliko počasnejših diskih, morda grem zadnja dve leti pred tem ohraniti na še počasnejših diskih, potem pa bom imel nekaj arhivske metode. "Običajno ni več posnetka, navadno - imate nekakšno omrežno shrambo ali neko napravo, ki ima veliko skladiščenja in je, veste, stroškovno učinkovit, vendar še vedno vrti disk.
Tako lahko zdaj - tako v storitvi Oracle kot na SQL strežniku - kupite možnost, kjer določite pravila in to se v ozadju samo avtomatično zgodi. Skripta vam ni treba več pisati, ni vam treba ničesar narediti. In če ste videli SQL Server 2016, ki je pravkar izšel prvi junij, je na voljo nova funkcija, imenovana "Stretch Databases", ki vam v bistvu omogoča, da se lahko v spodnjem desnem kotu premaknete iz več plasti neposredno v oblak in to je spet funkcija, ki je vgrajena v bazo podatkov, samo rečete: "Če so podatki stari več kot 365 dni, jih prestavite v oblak in, veste, to storite samodejno zame."
To bo res kul funkcija, pravzaprav mislim, da bo to morda tisto, kar bomo videli v prihodnosti, to je, da boste imeli hibridne baze podatkov, kjer boste obdržali nekaj lokalnih nekateri pa v oblaku. Pred tem so si ljudje mislili: "Oh, ali bom storil doma ali pa bom storil v oblaku." Zdaj smo poročili obeh tehnologij na ta hibridni način. Mislim, da bo to precej veliko in Microsoft je prvi prišel tja.
Redakcija, to je posledica varstva podatkov in skladnosti. Zdaj smo lahko v dobrih dneh rekli: "Hej, razvijalec aplikacij, ko to prikažeš v poročilu, ko to prikažeš na zaslonu, je nekaj varnostnih stvari, ki jih moraš preveriti, in prosim, veš, samo podatke naj bi videli ali maskirali ali uredili podatke, ki jih ne bi smeli videti. "No, kot običajno, ko ga potisnete v aplikacijo, se to ne naredi na enem mestu, tako da se to naredi drugače ali pa ne Ponekod ne bom dokončal. In zdaj to zmožnost dejansko imate v svojih sistemih baz podatkov.
Zdaj je v SQL Server 2016 ta funkcija vgrajena, zato še ni izbirna postavka stroškov, ki bi jo bilo treba dodati v podatkovni center; v Oracle 12 morate kupiti njihov dodatek za upravljanje življenjskega cikla, vendar je to nekaj novega in spet ga vodi podjetje. In zlasti zato, ker zdaj hranite toliko podatkov in delate rudarjenje podatkov, torej BI in analitiko, morate vedeti, kdo ima dostop do teh podatkov in se prepričajte, da lahko samo oni vidijo, kaj jih lahko vidijo.
Prav tako spet poglejte to, varstvo podatkov in skladnost. Ugotovili boste, da veliko sistemov baz podatkov zdaj gradi stiskanje ali, žal mi je, šifriranje neposredno v bazo podatkov in kaj je pomembno pri tej šifriranju, če pogledate puščico navzdol in puščico navzgor na diagramu, ki ga napiše navzdol na disk šifriran, nato pa ga prebere nazaj v spomin in ga dešifrira. To je pravzaprav en model, obstaja še en model, ki bi ga, dejansko veste, storil šele, ko te podatke po omrežju sporoči dejanski aplikaciji za stranke.
V tem primeru bi bil celo v pomnilniku strežnika baz podatkov šifriran in dešifriran šele, ko je poslan v stranko. Tu sta dva različna modela in ti jih boste našli v podatkovnih bazah, pravzaprav je bil eden od baz podatkov, ki so ga nedavno dodali, MariaDB v njihovi različici 10.X; Verjamem, da so zdaj na 10.1 ali 10.2. In dejansko sem naredil nekaj primerjalne analize za to šifriranje, in da sem dobil to šifriranje, sem doživel le približno 8-odstotno zmanjšanje prepustnosti ali hitrosti. Pri primerjalnem testu šifriranje ni povzročilo toliko, zato je zelo uporabna funkcija.
Zdaj smo že omenili bliskovni pomnilnik in SSD diske in podobne stvari. Ena od funkcij sistema Oracle in SQL Server, ki se je mnogi ne zavedajo, je, da lahko vzamete bliskavico ali SSD, ki je na vašem strežniku baz podatkov, in lahko rečete bazi: "Uporabite to, kot da bi bil pomnilnik. Z RAM-om obravnavajte kot prednostno, vendar se pretvarjajte, da je to počasen pomnilnik in ga uporabljajte kot razširjen predpomnilnik. "Zdaj se je v SQL Server 2014 to pojavilo in se imenovalo" Buffer Pool Extension ". V Oracle se je pojavil v 11g R2 in se je imenoval "Database Flash Cache", tam pa je bil tudi brezplačen.
Moj nasvet pa je, da to funkcijo previdno preizkusite. Vsakič, ko predpomnilnik povečate, traja dlje. Če postavite tri terabajtno bliskovno kartico in v bazo rečete: "Dodaj to v svoj pomnilnik", boste morda ugotovili, da se je nekaj upočasnilo zaradi časa, ko pogledate in vidite, ali je bliskavica, ali je umazano oz. čisto? Prihaja do zmanjšanja vrnitve. Moj nasvet je spet testna vožnja, poglejte, kaj deluje za vas, ampak spet je v vaši podatkovni bazi in v primeru Oracle-a, tako v SQL strežniku kot v Oracle-u, obstaja že nekaj let.
In potem nas pripelje do vnuka, ki je bil podatkovne baze v spominu in to je zato, ker so cene baz padle. Drugi razlog, za katerega bi verjetno mislili, da se je to zgodilo, je veliko analitike, ki zahteva, da so podatki zelo hitro dostopni, zato morajo biti v pomnilniku. Upoštevajte, da algoritmi, ki jih baze podatkov uporabljajo za dostop do teh podatkov, za njihovo stiskanje, za šifriranje, za shranjevanje, veste, da lahko v nekaterih primerih nekatere zbirke podatkov še naprej hranijo v pomnilniku kot vrstico.
V nekaterih primerih lahko nekatere zbirke podatkov to razbijejo v stolpce in je razlog, da to storijo, veliko višji nivo stiskanja, nekje okoli 11 do 12X, tako da ga shranijo v vrstnem redu stolpcev in vrstnem redu vrstic. Prvič se je pojavil v SQL Server 2014, imenoval se je "Hekaton". V SQL Server 2016 se je korenito povečal, nanj bodo navajali različna imena in izšel je v Oracle 12c; Tu pravim drugo izdajo, ne pa R2. Na voljo sta bili dve različici Oracle 12c, 12.1.0.1 in 12.1.0.2. Gre za drugo izdajo različice baze podatkov R1.
In način, kako ga definirate, je objekt v pomnilniku v obeh bazah podoben. Tu lahko vidite v desnem zgornjem kotu, ustvarjam strežnik SQL in vidite, da piše, da je optimiziran pomnilnik in je trajnost samo shema. Ne bom pretikal vseh teh pomenov sintakse in v Oracleu je pravzaprav še bolj preprosto, samo spremenite tabelo in rečete v spomin ali ne in to lahko spremenite. Lahko danes rečem, da je v spominu, jutri pa ni in je zato zelo prilagodljiv.
Naredil sem nekaj testov za Oracle s tabelami v pomnilniku, imel sem nekaj testov, ki so trajali skoraj 40 minut, tam zgoraj v zgornji vrsti. Pomembno je, da sem do trenutka, ko sem prišel do spodnjih dveh vrstic, podaljšal čas izvajanja ali zmanjšal, naj rečem, na pet minut približno, in ko sem pogledal faktor stiskanja, je bil v pomnilniku podatkov dejansko 3, 6 do 4, 6-krat manjši. To je pomembno, ker sem v tem primeru uporabil format, usmerjen v stolpce, in to je stiskanje. In tako ugani kaj? Pravzaprav sem si v spomin vgradil skoraj štiri- do petkrat toliko podatkov. Ne le, da sem dobil prednost v pomnilniku, prednost, usmerjeno v stolpce, ampak tudi prednost veliko več podatkov - do petkrat več podatkov v pomnilniku predpomnilnika, tako da je to precej močna tehnika. Spet Oracle in SQL Server, če si želite ogledati, so res super funkcije. In s tem mislim, da bom odprl vprašanja.
Eric Kavanagh: No Bert, najprej si bil zelo nesebičen pri vsej tej čudoviti vzgoji. Bi lahko govorili le minuto o tem, kaj počnete? Ker imate nekaj omogočitvene tehnologije, ki vam olajša to, o čemer ste govorili. Samo malo se pogovorite o tem, kaj počnete, nato pa pustimo Deza in Robina spodaj v enačbi.
Bert Scalzo: Ja, delam v podjetju IDERA. Smo v Teksasu, s sedežem v Houstonu, pravzaprav sedim v Austinu, vendar imam sedež v Dallasu. Izdelujemo orodja za baze podatkov in izdelujemo orodja za baze podatkov, ki vam pomagajo rešiti težave. Ta težava je lahko nekaj tako preprostega kot produktivnost; v tem primeru imamo orodje z imenom DBArtisan, ki vam omogoča opravljanje upravnih nalog baze podatkov in eno orodje, s katerim lahko upravljate 12 različnih platform podatkovnih baz. Lahko upravljam SQL Server, lahko upravljam Oracle, lahko upravljam MySQL, DB2, Postgres in uporabljam eno orodje, eno izvedljivo, eno obliko GUI in en dosleden nabor delovnih tokov. Izdelujemo tudi orodja za skladnost, imamo orodje, imenovano SQL Compliance Manager, ki vam pomaga pri zadovoljevanju potreb skladnosti. Še eno orodje, imenovano SQL Security, zato poskušamo narediti orodja, ki vam bodo pomagala biti učinkovita in učinkovita, in kar je res lepo, če obiščete našo spletno stran, imamo cel kup brezplačne različice, tako da, če nič drugega, pojdite na prenos - Mislim, da imamo približno 20 ali 25 avtocest. Tam je nekaj resnično brezplačnih brezplačnih stvari, kot sta SQL Server in Windows Help Check, ki bosta v bistvu pogledala, kaj imaš, in povedala, ali imaš težave ali stvari in je popolnoma brezplačna.
Eric Kavanagh: In v resnici ste …
Bert Scalzo: Definitivno prva stvar -
Eric Kavanagh: Danes govorite o heterogenosti na trgu, včasih je obstajala enakomerna enačba za vse, ki se pravzaprav spomnim, ko sem leta 2005, ko je nadaljeval, intervjuval dr. Michaela Stonebrakerja. velik pritisk je govoril o razsodbi o gibanju baze podatkov, usmerjene v stolpce, in govoril je o tem, kako je mnogo let prevladoval relacijski model ene velikosti - vse - in napovedoval, da se bo vse to spremenilo, fant pa je imel prav da. Zdaj imamo to zelo raznoliko in zanimivo okolje z veliko različnimi možnostmi in priložnostmi, vendar potrebujete nekoga, ki bi vse to obvladoval, in zdi se mi, da je vaše podjetje precej osredotočeno na reševanje matematičnih problemov, s čimer je omogočilo glava heterogenosti, kajne?
Bert Scalzo: Vsekakor. Hočem reči, da bodo vedno obstajali DBA, ki pravijo: "Nočem uporabljati orodja GUI, vse delam s skripti", veste? Mislijo, da so supermanski tip DBA in to je v redu, vendar za večino nas hočemo samo opraviti delo in - veste, za pisanje dokumentov uporabljam Microsoft Word. Za pošiljanje e-pošte uporabljam Microsoft Outlook. Mislim, imam orodja za opravljanje nalog. Gradimo enak koncept, gradimo orodja za skrbnike baz podatkov in razvijalce, s pomočjo katerih se lahko osredotočijo na to, kaj želijo narediti, in ne na to, kako to storiti.
Eric Kavanagh: To je smiselno, ampak dovolite, da vas prosim pred našimi strokovnjaki in ljudje se lahko potopite noter. Imamo nekaj komentarjev iz publike. Mogoče, Dez, nekaj vprašanj in Robin nekaj vprašanj?
Dez Blanchfield: Seveda. Eno prvih vprašanj, ki bi vam ga želelo postaviti glede na ogromno izkušenj, ali kmalu vidite trenutek, ko se bo kaj od tega upočasnilo? Ali menite, da smo res šele na začetku te nenehne rasti? Mislim, da je eno največjih vprašanj, s katerimi se podjetja spopadajo, in nato ljudje, ki poskušajo podpreti tehnologijo, ki jim je omogočena, da vodijo svoja podjetja, ta, da je hitrost sprememb tako dramatična, da preprosto ne morejo slediti vsem različne funkcije, programska oprema, sistemi, okviri, arhitekture in nova koda, nato še strojna oprema, ali vidite, da se trenutna hitrost sprememb takoj upočasnjuje? Mislim, imate tako široko paleto ploščadi s celotnim paketom IDERA, ali bomo kmalu upočasnili ali se že dolgo srečujemo na tem norem zapuščenem tovornem vlaku?
Bert Scalzo: Mislim, da smo na prvih 20 odstotkih te krivulje rasti in da nas čaka dolga pot. Tehnologija se nenehno razvija. Omenili ste nekaj novih vrst spomina, ki bodo izšli, to bo fantastično. Samsung bo kmalu imel 20-terabajtni bliskovni pogon. To bo spremenilo stvari. Imamo vse te baze podatkov NoSQL in oblakov, to bo še naprej. Nekaj smešnega pa je, ko gledam baze podatkov, kot sta Oracle in SQL Server ter nekatere druge, v resnici niso več relacijske baze podatkov. V Oracle lahko vnesem nestrukturirane podatke in obenem vzdržujem skladnost z ACID. Če bi mi to povedali pred 20 leti, bi samo rekel, da uživate droge.
Dez Blanchfield: Da, da, super sta. Pa tudi zdaj tisti motorji, ki imajo precej lepe nišne navpičnice, kot je GIS, le boljše od domačih zmogljivosti. Predložili ste nekaj odličnih komentarjev o izzivih, s katerimi se srečujejo matični akterji, in o različnih obdobjih DBA, za katere si upamo, da jih bomo videli, toda kako izgleda svet s takšnim slojem poslovanja, s katerim se ukvarjate? Mislim, to so ljudje, ki uporabljajo različne platforme, od vašega upravitelja diagnostike, do orodij za inventar in vse do razstreljevanja do odmrzovanja, kako se DBA spopadajo s to spremembo in kako se nekako - veste, kaj počnejo z vašimi orodji, da se spopadejo s tem pomembnim premikom v svoji pokrajini?
Bert Scalzo: No, vrnil se bom pred skoraj 20 leti, potem bom rekel, da DBA rešujejo zelo specifično vlogo v organizaciji. Običajno delajo z eno platformo baze podatkov, morda dvema, in upravljali so razmeroma majhno število baz podatkov. Zdaj hitro naprej in danes skrbnik baz podatkov bo dejansko spoznal 10 platform podatkovnih baz. Upravlja, in to ni šala, ponekod na tisoče podatkovnih baz; to je več o svetu SQL Server ali MySQL. Toda še vedno lahko v svetu Oracle upravljajo na stotine baz podatkov. In tako se pojavijo vse te nove funkcije, vse te nove platforme in vse te baze podatkov, za katere so odgovorni. Iščejo orodja, ki bi jim omogočila produktivnost in jim pomagala pri učenju nekaterih stvari.
Navedel bom primer - če želim razdeliti tabelo, je to precej nejasna skladnja, in če jo želim poddeliti, postane skladnja še toliko težja. Vem, kaj želim početi, želim ustvariti vedra. Če imam orodje kot je DBArtisan, ki pravi: "Hej, tukaj je lep zaslon, ki vam omogoča, da se osredotočite na to, kar poskušate narediti, namesto na to, kako poskušate to narediti, in mimogrede, potisnite gumb Ko končate, pokažite gumb SQL in pokazali vam bomo, kakšen je bil SQL, da se boste lahko začeli resnično učiti in obvladati to. "
DBA ugotavljajo, da orodja, ki jim pomagajo pri opravljanju dela, hkrati pa jim pomagajo naučiti vse te nove stvari, ki jih uporabljajo, in isto bi bilo res - recimo, da sem tip Oracle in grem na MySQL in rečem, "Ok, ustvari bazo podatkov, DBArtisan. Zdaj mi pokažite SQL, ker me zanima, kako je ustvariti bazo podatkov na MySQL in pravkar sem se naučil sintakse. "In zato jim ne pomagamo le, da delujejo po zbirki podatkov, temveč jih izobražujemo tudi po zbirki podatkov.
Dez Blanchfield: Še bolj zanimivo je, ko prideš do kakšnega bolj modernega - ali ne bolj modernega, to ni pošteno reči -, vendar je nekoč baza podatkov baza podatkov. Danes vidim vse, o čemer govorite tam, z dodatnim izzivom, da tehnologija, ki jo tradicionalno vidimo pri prodajalcih, in v njih nekako odprto kodo, pa tudi, da so dobri. Ne ukvarjamo se le z motorji baz podatkov in jeziki poizvedb, temveč se ukvarjajo tudi s podatkovnimi tipi, strukturiranimi in nestrukturiranimi, kar veste, izziv, da se moramo spoprijeti z vsem, kar je od daleč na koncu spektra HDFS z več petabajti. okolje do majhnih drobnih vsebnikov in paketnih datotek in različnih datotek dnevnikov.
In mislim, da je to nekaj, kar zdaj vidimo, kje preprosto nobeno človeško bitje, ne glede na to, kako superman, super ženska, karkoli se jim zdi, fizično, se ne more mentalno spoprijeti s to hitrostjo sprememb in obseg variacij. Mislim, da bo zbirka orodij, ki jih ponujate zdaj, prišla do točke, ko bodo na več načinov skorajda že privzeto nastavljeni, tako da brez njih ne moremo zagnati baz podatkov, saj jih fizično ne morejo metati toliko teles na njih. Zelo sem užival v vaši predstavitvi. Prešel bom k dr. Robinu Bloorju, prepričan sem, da bo imel tudi vas veliko vprašanj.
Robin Bloor: V redu. No, zagotovo imam vprašanja. Bert, ne vem, kam greš - pred nekaj dnevi sem imel res zanimiv pogovor, kjer mi je nekdo začel pripovedovati o najnovejši zaščiti podatkov DU, in meni se je zdelo, kot so govorili, da je to neverjetno drakonski glede stvari, na katerih so vztrajali. Spraševal sem se, če si to dejansko pogledal; je to nekaj, kar poznate?
Bert Scalzo: Vsekakor. Ja.
Robin Bloor: 2016, v redu, povej nam o tem.
Bert Scalzo: In pravzaprav sem …
Robin Bloor: Globoko zanimivo.
Bert Scalzo: Dejansko sem nekaj časa delal za prodajalca bliskavic, na njihovem območju podatkovnih baz so jim pomagali pri izdelavi bliskovitih izdelkov za baze podatkov in lahko vam povem, da drakonski gre vse navzdol. Mislim, če se spomnite mojega diapozitiva, sem v nekaterih zbirkah podatkov rekel, da bo naredil šifriranje, vendar ga v strežnik pomiri, v nekaterih bazah pa šifriranje - še vedno je šifrirano v pomnilniku strežnika, dešifrira se šele, ko se pošlje stranki. No, našli boste tudi nekatere od teh vladnih standardov, zlasti ministrstva za obrambo ali vojske tukaj v ZDA, prav tako se spustijo do bliskavice in želijo vedeti ne le, da podpirate šifriranje in dešifriranje v vašo strojno opremo, toda če bi kdo ukradel čipe, ki jih je - veste, potegnil iz stvari iz vašega strežnika, da je to, kar je tam, šifrirano in tako, čeprav imajo shranjevanje, ne more biti in bi vse do dejanskega - ne do samega dela bliskavice, ampak do posameznih čipov. Želeli so vedeti ta čip po čipu, vse je bilo šifrirano.
Robin Bloor: Vau. Mislim, obstaja veliko stvari, ki jih - veste, mislim, da ste o tem predstavili samo enega ali dva diapozitiva, vendar je bil to nekaj, scenarij, za katerega mislim, da je res zanimiv. Na primer, urejanje informacij mora biti malo pametnejše kot samo prikrivanje različnih področij, saj še posebej pri strojnem učenju danes lahko naredite deduktivne stvari, ki omogočajo prikrivanje informacij, ki jih prej niste mogli prikazati.
Če poskušate zaščititi, recimo zdravstvene podatke, potem so to zelo, zelo drakonska pravila v ZDA glede zdravstvenih informacij, toda dejansko lahko z različnimi tehnikami strojnega učenja pogosto ugotovite, kdo je kdo zdravstvenih informacij v resnici je. Samo spraševal sem se, če imaš kaj povedati o tem, ker vsi mislijo, da je to zanimivo področje.
Bert Scalzo: Ja, absolutno, in to uporabljam samo kot primer, ne poskušam reči, da je ena baza podatkov boljša od druge, vendar je to zelo dober primer za to, kar ste pravkar vprašali. V Oracle-u, če mi na primer ni dovoljeno videti vrstice podatkov, na primer ni dovoljeno videti zdravstvenega kartona Johna Smitha. V Oracleu, če rečem: »Izberi ta zapis«, bom blokiran ali pa mi bo omogočeno, da vidim, kaj si lahko ogledam, in bo urejeno. In če rečem: "Izberite zvezdo računa iz tabele, kjer je enak John Smith, " dobim nič.
V SQL Serverju lahko izvaja redakcijo, vendar ima nekaj lukenj. Če rečem: "Izberi zvezdo računa iz tabele, kjer je enak Johnu Smithu, " bom dejansko dobil eno, tako da vem, da je John Smith. Eden je bolj varen kot drugi. Zdaj pričakujem, da bodo to popravili, vedno igrajo skok žabe med seboj. In še enkrat, ne poskušam razlikovati med zbirkami podatkov, razen da bi pokazal primer - poglejte, o čem govorimo zdaj, nekaj preprostega, kot je izbrani račun, mora redikcija tudi preseči, čeprav tehnično če rečem, ni ničesar, kar bi bilo spremenjeno razen obstoja vrstice.
Robin Bloor: Ja, prav. To je nekako zanimivo. Mislim, drugo splošno vprašanje, ker nimam veliko časa, je v resnici samo za izboljšave. Mislim, da ste bili v tistem, za katerega vem, da ste nam pokazali primere različnih rezultatov testov, ki jih vodite - ali menite, da so tradicionalne baze podatkov, imenujemo jih prevladujoče baze podatkov, SQL Server in Oracle, ali ne? mislite, da bodo ostali pred zaključkom? Ali menite, da jih bodo resnično ujele ene ali druge vrste motenj na trgu, ki jim resnično uspevajo? Kakšno je vaše mnenje?
Bert Scalzo: Jaz imam svoje mnenje in to - veste, spet bom rekel, da je to moje mnenje - Microsoft je na primer v obdobju po Ballmerju samo navdušil živ pekel iz mene. Mislim, da bo ta raztezna baza podatkov dobila SQL Server v Linuxu, prešla .NET v Linuxu, prešla PowerShell v Linuxu; Mislim, da tradicionalni prodajalci baz podatkov ne bodo zaostali. Mislim, da so se odločili: "Hej, naj novi fantje, startupi, nekaj določijo. Naj ugotovijo, kaj je ostrenje in kako ga je treba izpopolniti, in ko bodo končali vse raziskave in razvoj, natančno vemo, kaj si uporabniki želijo, zdaj dodajmo ostrenje k Oracleu. "Mislim, da so samo pametni in pravijo: "Hej, biti drugi ali tretji ni slabo, ko si prevladujoč igralec, ker potem ljudje ne bodo odselili od tebe."
Robin Bloor: Ja, mislim, da je bila uporabljena strategija. Mislim, da je to prej delal IBM in celoten izdelek - za celoten obseg svojih izdelkov, in to zelo dobro oceni, dokler se nekdo ne domisli nečesa, kar je čisto povsem pri steni, na kar nihče ni pomislil, vendar ne morete načrtovati proti temu tako ali tako.
Vprašanja občinstva, Eric?
Eric Kavanagh: Ja, ampak imaš čas, mislim da samo za enega in vem, da mora Bert kandidirati. Tu je bilo nekaj o - v redu, zaostrena arhitektura Oracle 12c je navedba - ali kaj je to po vašem mnenju, kaj mislite, da se tam dogaja?
Bert Scalzo: No, Oracle absorbira oziroma ponuja vse, kar so vsi ostali ponudniki baz podatkov. V Oracle lahko na primer vstavim nestrukturirane podatke. Ne vem, kako lahko postavite nestrukturirane podatke in jih potem imenujete relacijska baza podatkov, tako da to nima nobenega smisla, vendar lahko. In zdaj Oracle dodaja ostrenje, zato Oracle pravi: "Veste kaj? Karkoli želi trg, bomo dali svojo ponudbo baz podatkov, ker trg želi, kar želi trg, in želimo ponuditi rešitev, želimo, da ostanejo pri nas. "
Mislim, da si boste ogledali dodatne predmete. Ne bi me presenetilo, če bi videl združevanje baz podatkovnih vozlišč, ki so podobne Hadoopu, ne v Oracle stojalu ali resnični aplikacijski grozdu, ampak v bistvu v več tradicionalnih skupinah Hadoop, ki to storijo. In zato mislim, da boste lahko uporabili bazo podatkov, kot je Oracle, kot bi bil Hadoop, in takšni trendi se bodo nadaljevali. Ti veliki prodajalci baz podatkov zaslužijo več milijard dolarjev in nočejo izgubiti svojega trga, zato so se pripravljeni prilagoditi čemurkoli ali sprejeti karkoli.
Eric Kavanagh: No, saj veste, smešno je, ker že dolgo spremljam prodajalce odprtih vrat in se sprašujem o vsem tem, kako velik vpliv bo imel na tradicionalno tehnologijo zaprtih vrat, in še nekaj časa zagotovo sem se počutil, kot da prodajalci z odprto kodo resno napredujejo in zdaj, ko gledam trg, vidim, kaj pravite, da so veliki fantje opravili matematiko, izostrili svinčnike in ugotovili, kako lahko veliko teh stvari vpletejo v svoje arhitekture. Ne glede na to, ali gre za IBM, Oracle ali SAP - ravno prejšnji mesec sem bil na konferenci SapphireNow in Steve Lucas, ki je vodil polovico tega podjetja, se je hvalil, da je SAP zdaj v svojo oblačno platformo HANA vključil več komponent odprtega izvora kot katera koli od njih tekmovalci. Če se s tem ukvarjate z matematiko, je to zelo impresivna izjava, ki mi pravi, da veliki fantje ne bodo šli kamor koli prej.
Bert Scalzo: Ne, svoj denar bi stavil na oboje. Mislim, če pogledate, je bila Microsoftova zaloga pred kratkim približno 50 dolarjev in, le nekaj let nazaj je bila pri 25. Ne boste podvojili cene delnic v kratkem času, razen če počnete dobre stvari in vem, od tega, da vse, kar je Windows, prvo leto ni zastonj, in vse druge pametne stvari, ki jih počnejo, se mi zdi ta funkcija baze podatkov o raztežaju samo fenomenalna. Mislim, da se bo zgodilo, da bo veliko ljudi končalo v Azureju, ne neposredno, ne tako, kot so rekli: "Prestavimo bazo podatkov na Azure." Tam se bo čarobno preselila, ker bo arhivirana tam z uporabo te nove funkcije podatkovne baze raztezkov in tako bo sprejetje Azure samo naraslo.
Eric Kavanagh: No, to je eden od trendov na trgu, ki ga lahko opazim, tudi na vašem Macu. Ko greste v svoj Mac, da shranite nekaj dokumentov, ti zdaj - in novejši Mac-ji le sledijo skozi oblak, kajne? Mislim, v tej strategiji je veliko smisla in tudi jaz jo pogledam in grem: "V redu, fantje, poskušate me privabiti delno v vaše oblačno okolje, in potem nekega dne, ko želim pogledati kakšen film, če moja kreditna kartica je potekla, zato bom v težavah. "
Bert Scalzo: Ja, ampak to narediš na Facebooku.
Eric Kavanagh: Ja. To je res.
Bert Scalzo: Vse si dal na Facebook.
Eric Kavanagh: No, ne čisto vse.
Bert Scalzo: Ne, mislim …
Eric Kavanagh: Ja, pojdi naprej.
Bert Scalzo: Ti družbeni trendi segajo v podjetja. Zdaj imajo podjetja še vedno veliko drugih stvari, ki jih morajo opraviti, vendar opažajo te trende in počnejo iste stvari. Oracle ali Microsoft ne vidim več. Pravzaprav bom kupil zaloge obeh, vsakič, ko bo počitek.
Eric Kavanagh: Ja, res. No, ljudje, pojdite na idera.com, IDERA pik com. Kot je rekel Bert, imajo tam cel kup brezplačnih stvari in to je eden od novih trendov na trgu - dajte si nekaj brezplačnih stvari, s katerimi se lahko igrate, se pripeljete, nato pa kupite prave stvari.
Ljudje, to je bila še ena vroča tehnologija. Hvala za vaš čas, Bert, seveda Dez in tudi Robin. Pogovorili se bomo naslednji teden, ljudje, veliko stvari se dogaja. Če imate kakršne koli ideje, vas prosimo, da resnično pošljete svoje sporočilo, . Z vami se bomo pogovarjali naslednjič, pazite. Adijo.