Domov Strojna oprema Big iron, izpolnjujte velike podatke: sprostite podatke mainframeja s hadoopom in iskricami

Big iron, izpolnjujte velike podatke: sprostite podatke mainframeja s hadoopom in iskricami

Anonim

Avtor osebja Techopedia, 2. 6. 2016

Odvzem: Ekosistem Hadoop se uporablja v glavnih računalnikih za hitro in učinkovito obdelavo velikih podatkov.

Trenutno niste prijavljeni. Če si želite ogledati video, se prijavite ali prijavite.

Eric Kavanagh: V redu, dame in gospodje, v četrtek je štiri ure vzhodno, danes pa to pomeni, da je seveda čas za Hot Technologies. Da, v resnici me je Eric Kavanagh. Jaz bom vaš moderator današnjega spletnega seminarja. To je dobro, ljudje, "Big Iron, Meet Big Data" - Všeč mi je ta naslov - "Osvobajanje podatkov mainframeja s Hadoopom in Spark". Govorili bomo o starih novih srečanjih. Vau! Pokrivamo spekter vsega, o čemer smo govorili v zadnjih 50 letih podjetja IT. Spark se sreča z mainframeom, všeč mi je.

Spot o tvojem resnično in dovolj o meni. Leto je vroče. V tej seriji govorimo o vročih temah, ker resnično skušamo pomagati ljudem razumeti določene discipline, določene prostore. Kaj pomeni imeti na primer analitično platformo? Kaj pomeni sprostitev velikih podatkov iz glavnih okvirjev? Kaj vse to pomeni? Poskušamo vam pomagati razumeti posebne vrste tehnologij, kje se vklapljajo v kombinacijo in kako jih lahko uporabite.

Danes imamo dva analitika in seveda Tendü Yogurtçu iz Syncsorta. V našem prostoru je vizionarka, zelo vesela, da jo imamo danes na spletu z našimi lastnimi Dez Blanchfield in dr. Robin Bloorjem. Povedal bom le nekaj hitrih besed. Eno je, da ljudje, v tem procesu igrate veliko vlogo, zato prosim, ne sramežljivo postavljajte nekaj dobrih vprašanj. Do njih bi radi stopili med Q&A komponento spletnega prenosa, ki je običajno na koncu oddaje. Vse kar moram reči je, da imamo veliko dobre vsebine, zato sem navdušen, ko slišim, kaj imajo ti fantje za povedati. In s tem ga bom izročil Dezu Blanchfieldu. Dez, tla so tvoja, vzemi ga.

Dez Blanchfield: Hvala, Eric, in hvala vsem, ki ste se ga danes udeležili. Tako sem zelo navdušen, ko imam priložnost govoriti o eni najljubših stvari na svetu, mainframes. V teh dneh se ne ljubijo veliko. Po mojem mnenju je mainframe originalna platforma za velike podatke. Nekateri trdijo, da so bili takrat edini računalnik in to je pošteno vprašanje, toda že več kot 60 let so dejansko strojnica tistega, kar so bili veliki podatki že od nekdaj priljubljeni. In peljal vas bom na malo potovanje, zakaj verjamem, da je tako.

V tehnoloških sklopih strojne opreme smo opazili potovanje v okviru mainfram-ov, ki se spreminjajo od slike, ki jo vidite na zaslonu. To je stari glavni FACOM, eden mojih najljubših. Prešli smo v veliko železno fazo, konec devetdesetih in dot-com razcvet. To je Sun Microsystems E10000. Ta stvar je bila absolutna pošast pri 96 CPU-jih. Prvotno 64, vendar bi ga bilo mogoče nadgraditi na 96 procesorjev. Vsak procesor lahko poganja 1.024 niti. Vsaka nit je lahko hkrati s hitrostjo nanosa. Bilo je ravno pošastno in je dejansko spodbudilo razmah dot-com. To so vsi veliki samorogi, kot jih imenujemo, zdaj vodimo in ne le velika podjetja, nekatera velika spletna mesta.

In potem smo zaključili s tem običajnim računalniškim modelom, ki ni na voljo. Pravkar smo skupaj privezali veliko poceni strojev in ustvarili smo grozd in pristopili k velikemu železnemu izzivu in tistim, kar je postalo velik podatek, zlasti v obliki projekta Hadoop, ki je izhajal iz odprtokodnega iskalnika Nutch. In v bistvu smo ustvarili mainframe in veliko majhnih CPU-jev, ki so bili zlepljeni skupaj in bi lahko delovali kot L-poti in v obliki izvajanja ločenih opravil ali delov opravil in so bili na več načinov zelo učinkoviti. Cenejše, če ste začeli z manjšimi, a vedno so bili številni ti veliki grozdi dražji kot mainframe.

Moje mnenje o teh stvareh je, da smo v naletu od razbitja dot-coma do tega, kar je postalo Web 2.0 in zdaj lovijo samoroge, pozabili, da tam ta platforma še vedno napaja številne naše največje kritične sisteme. Ko pomislimo, kaj se izvaja na platformi mainframe. To so zelo veliki podatki, zlasti podatkovni delovni konjiček, zagotovo pa veliki podatki. Tradicionalne podjetniške in državne sisteme, zlasti bančništvo in upravljanje premoženja, predvsem zavarovanja, uporabljamo vsak dan.

Sistemi rezervacij in upravljanja letov, zlasti upravljanje letov, kjer je v realnem času ključnega pomena. Skoraj vsaka država in zvezna vlada sta v določenem času imela osrednje okvire in vedno jih ima še vedno veliko. Trgovina na drobno in proizvodnja. Nekaj ​​stare programske opreme, ki je bila naokoli in še nikoli ni minila. Še naprej napaja proizvodna okolja in vsekakor maloprodajo v obsegu. Medicinski sistemi. Obrambni sistemi, zagotovo obrambni sistemi.

V zadnjih nekaj tednih sem prebral veliko člankov o tem, da nekateri sistemi za nadzor raket še vedno delujejo na starih glavnih računalnikih, za katere se trudijo poiskati dele. Ugotavljajo, kako nadgraditi v nove glavne okvirje. Prometni in logistični sistemi. Te se morda ne slišijo kot seksi teme, vendar so to teme, ki jih vsakodnevno obravnavamo. Nekatera zelo velika telekomunikacijska okolja še vedno delujejo na platformi mainframe.

Ko razmišljate o vrstah podatkov, ki so tam, so vsi kritični. Resnično so pomembne platforme in platforme, ki jih jemljemo zdravo za vsak dan in na več načinov omogočajo življenje. Kdo torej še uporablja mainframe in kdo so vsi ti ljudje, ki držijo te velike platforme in imajo vse te podatke? No, kot sem rekel tukaj, verjamem, da ga je mogoče preprosto pregrešiti, ko so mediji prešli z velikega železa na stojala običajnih grozdnih plošč ali poceni osebnih računalnikov ali naprav x86, misleč, da je mainframe umrl in odšel. Toda podatki pravijo, da se mainframe ni nikoli izšlo in v resnici je tu treba ostati.

Raziskave, ki sem jih tukaj sestavil v zadnjih nekaj tednih, so pokazale, da 70 odstotkov podjetij, zlasti velikih podjetij, še vedno prebiva v glavnem okviru neke oblike. Sedeminsedemdeset odstotkov Fortune 500s še vedno nekje vodi osnovne poslovne sisteme na glavnih mestih. V resnici imamo tu v Avstraliji številne organizacije, ki imajo središče mesta podatkovni center. To je dejansko dejanski podzemni računalnik in število glavnih okvirjev, ki tam teknejo, tikajo in srečno opravljajo svoje delo. In le malo ljudi ve, da se v enem določenem delu mesta sprehaja po ulicah, tik pod njihovimi nogami, ta ogromen podatkovni center, napolnjen z osrednjimi okviri. Devetindevetdeset od 100 bank po vsem svetu, to je najboljših 100 bank, še vedno vodijo bančne sisteme na glavnih mestih. Triindvajset od prvih 25 trgovskih verig po vsem svetu uporablja mainfram, da še vedno vodijo svoje sisteme upravljanja maloprodaje na platformah EIP in BI.

Zanimivo je, da 10 od 10 najboljših zavarovalnic še vedno vodi svoje platforme na mainframe in dejansko uporabljajo svoje oblačne storitve na mainframe. Če uporabljate spletni vmesnik ali mobilno aplikacijo nekje, kjer je vmesnik vmesne programske opreme, to dejansko govori o resnično težkem in velikem na zadnji strani.

Več kot 225 državnih in lokalnih vladnih agencij po vsem svetu še vedno deluje na platformi mainframe. Prepričan sem, da obstaja veliko razlogov za to. Mogoče nimajo proračuna, da bi razmislili o novem železu, toda to je velik odtis zelo velikih okolij, ki delujejo na mainframe z nekaj zelo kritičnimi podatki. In kot sem že omenil, večina držav še vedno vodi svoje ključne obrambne sisteme na glavni ravni. Prepričan sem, da se na veliko načinov trudijo priti tja, toda pojdite.

Leta 2015 je IDC izvedel anketo in 350 anketirancev CIO je poročalo, da imajo še vedno v lasti in upravljajo veliko železo v obliki mainframes. In presenetilo me je, da gre verjetno za več kot število obsežnih skupin Hadoop, ki trenutno delujejo po svetu v proizvodnji - zanimiv majhen statist tam. Šel bom naprej in to potrdil, vendar je bilo to veliko število. Tristo petdeset CIO-ov je sporočilo, da imajo v proizvodnji še eno osrednjo platformo.

Lani, 2015, nam je IBM podelil mogočni Z13, trinajsto ponovitev svoje mainframe platforme. Mediji so se o tej stvari razburili, ker so se čudili, da IBM še vedno izdeluje glavne platforme. Ko so dvignili kapuco in si ogledali, kaj se skriva pod stvarjo, so ugotovili, da je pravzaprav skoraj ena moderna platforma, ki smo jo navdušili v obliki velikih podatkov, Hadoopa in zagotovo grozdov. Ta stvar je vodila Spark in zdaj Hadoop domače. Na njem bi lahko zagnali na tisoče in tisoče naprav Linux in izgledalo je, kot da bi bilo to v drugih skupinah. Bil je precej osupljiv stroj.

Številne organizacije so se tega lotevale in v resnici sem zbral nekaj podatkov o tem, koliko teh strojev se loti. Zdaj sem videl, da so besedilni terminal 3270 že nekaj časa zamenjali spletni brskalniki in mobilne aplikacije in da obstaja veliko podatkov, ki to podpirajo. Mislim, da zdaj vstopamo v obdobje, ko smo ugotovili, da ti mainframes ne minejo in je o njih veliko podatkov. In to, kar počnemo zdaj, je preprosto dodajanje orodij za analitiko, ki jih imam na roki. To niso prilagojene aplikacije. To so stvari, ki so enkratni. To so stvari, ki jih lahko dobesedno samo kupite v pakirani škatli kot take in se vtaknete v svoj glavni okvir in opravite nekaj analitike.

Kot sem že rekel, v glavnem je bilo več kot 60 let. Ko razmišljamo o tem, kako dolgo je to, to traja dlje, kot je dejansko kariera večine živih IT strokovnjakov. In v resnici verjetno celo življenje. Leta 2002 je IBM prodal 2.300 glavnih računalnikov. Leta 2013 je ta narasla na 2700 glavnih mest. To je 2700 prodajnih mest mainframes v enem letu leta 2013. Nisem mogel dobiti natančnih podatkov za leto 2015, vendar mislim, da se hitro približa 3.000 prodanih enot na leto v letu 2015, 2013. In veselim se, da bom to lahko potrdil.

Z izdajo Z13, trinajsta iteracija mainframe platforme, ki bo po mojem mnenju stala približno 1, 2 ali 1, 3 milijarde dolarjev, da so se razvili iz nič, IBM, to je, tukaj je stroj, ki izgleda in se počuti tako kot kateri koli drug grozd, ki imamo danes in domače vodi Hadoop in Spark. Zagotovo jih je mogoče povezati z drugimi analitičnimi orodji in velikimi orodji za podatke ali pa vedno povezati z enim od vaših obstoječih ali novih skupin Hadoop. Menim, da je vključitev platforme mainframe v vašo veliko podatkovno strategijo nujno. Očitno je, da če jih imate, imate veliko podatkov in želite ugotoviti, kako jih tam spraviti. In ostanejo nabirati prah na različne načine, miselno in čustveno, kolikor gre v poslovnem svetu, vendar so tu, da ostanejo.

Povezava in vmesniki za vsa vaša analitična orodja za podatke, ki jih gostijo mainframe, bi morali biti ključni del vašega podjetja in zlasti vladnih načrtov za velike podatke. In programska oprema jih vedno opazi, dobro pogledajo in spoznajo, kaj je znotraj teh stvari, in povežejo misli, ki začnejo dobiti nekaj vpogleda in malo občutka za tisto, kar je dejansko pod pokrovom. In s tem bom izročil mojemu dragemu kolegu, dr. Robinu Bloorju, ki mi bo še dodal tisto malo potovanje. Robin, vzemi ga.

Robin Bloor: No, hvala. V redu, ker je Dez zapel pesem mainframeja, bom šel v to, kar mislim, da se dogaja v smislu starega sveta mainframea in novega sveta Hadoop. Mislim, da je tukaj veliko vprašanje, kako upravljate z vsemi temi podatki? Nisem mnenja, da se mainframe izziva zaradi svoje velike podatkovne zmogljivosti - njegova velika podatkovna zmogljivost je izjemno, kot je dez poudaril Dez, izjemno sposobna. Pravzaprav lahko nanj postavite skupine Hadoop. Kjer je izziv, je glede na njegov ekosistem in o tem bom nekoliko razčistil.

Tukaj je nekaj pozicioniranja v osnovnem okviru. Ima visoke vstopne stroške in kar se je v preteklosti dejansko dogajalo, saj se je od sredine 90-ih, ko se je priljubljenost mainfram-ov začela zmanjševati, izgubiti na koncu, tisti ljudje, ki so kupili poceni mainframe in jih ni bilo Za te ljudi res ni posebno ekonomsko. Toda višje v srednjem in velikem obsegu mainframe je bilo še vedno, in dokazuje, da je pravzaprav zelo poceni računalništvo.

Resda ga je moral rešiti Linux, ker je Linux, implementiran v mainframe, omogočil seveda zagon vseh aplikacij Linux. Veliko aplikacij za Linux je šlo tja, preden je bil o velikih podatkih sploh beseda ali dve besedi. Pravzaprav je dokaj odlična platforma za zasebni oblak. Zaradi tega lahko sodeluje pri hibridnih razmestitvah v oblaku. Ena od težav je pomanjkanje veščin za mainframe. Obstoječe veščine mainframe se dejansko starajo v smislu, da ljudje leto za letom zapustijo panogo in jih nadomeščajo le glede na število ljudi. To je vprašanje. A še vedno gre za poceni računalništvo.

Seveda je področje, na katerem je bil izziv, celotna Hadoop stvar. To je slika Douga Cuttinga z originalnim slonom Hadoop. Ekosistem Hadoop je - in še vedno bo - prevladujoči ekosistem velikih podatkov. Ponuja boljši obseg, kot ga lahko doseže glavni okvir, in dolgoročno je nižji strošek kot shramba podatkov. Ekosistem Hadoop se razvija. Najboljši način za razmišljanje o tem je, ko enkrat določena strojna platforma in operacijsko okolje z njo postane prevladujoče, potem ekosistem oživi. In to se je zgodilo z IBM mainframe. No, kasneje se je zgodilo z Digital VAX, zgodilo se je s strežniki Sun, zgodilo se je z Windows, zgodilo se je z Linuxom.

In zgodilo se je, da se ekosistem Hadoop, o katerem vedno mislim ali rad razmišljam kot o nekakšnem razporejenem okolju podatkov, razvija z neverjetno hitrostjo. Mislim, če samo omenite različne impresivne prispevke, ki so odprtokodni, Spark, Flink, Kafka, Presto, nato pa v to dodate še nekaj baz podatkov, zmogljivosti NoSQL in SQL, ki zdaj sedijo na Hadoopu. Hadoop je najbolj aktiven ekosistem, ki dejansko obstaja tam, zagotovo v korporativnem računalništvu. Če pa ga želite obravnavati kot bazo podatkov, v tem trenutku preprosto ne primerja tistega, kar se mi zdi resnično baz podatkov, zlasti v prostoru za shranjevanje podatkov. In to do neke mere razlaga uspeh številnih baz podatkov NoSQL, ki ne delujejo na Hadoopu, kot je CouchDB in tako naprej.

Kot podatkovno jezero ima veliko bogatejši ekosistem kot katera koli druga platforma, zato se s tega ne bo preselil. Njegov ekosistem ni samo odprtokodni ekosistem. Zdaj je dramatično število članov programske opreme, ki imajo izdelke, ki so v osnovi narejeni za Hadoop ali so bili uvoženi v Hadoop. In pravkar so ustvarili ekosistem, da ni ničesar, kar bi lahko konkuriralo njemu v smislu njegove širine. In to pomeni, da je v resnici postala platforma za inovacije velikih podatkov. Toda po mojem mnenju je še vedno nezrelo in lahko bi se dolgo pogovarjali o tem, kaj je in ne, recimo, operativno zrel z Hadoopom, vendar mislim, da se večina ljudi, ki gledajo na to področje, dobro zaveda, da je Hadoop desetletja zaostanka v smislu operativne sposobnosti.

Jezero, ki se razvija. Podatkovno jezero je platforma po kateri koli definiciji in če mislite, da obstaja podatkovna plast v korporativnem računalništvu, je to zelo enostavno razmišljati v smislu fiksnih baz podatkov in podatkovnega jezera, ki sestavljajo podatkovno plast. Aplikacij Data Lake so številne in raznolike. Tu imam diagram, ki prikazuje samo različne podatke, ki jih je treba storiti, če uporabljate Hadoop kot prizorišče ali Hadoop in Spark kot prizorišče. In dobili ste celoto - linijo podatkov, čiščenje podatkov, upravljanje metapodatkov, odkrivanje metapodatkov - se lahko uporablja za sam ETL, vendar pogosto zahteva, da ETL vnese podatke. Glavni podatkovni management, poslovne opredelitve podatkov, upravljanje storitev kaj se dogaja v Hadoopu, upravljanju podatkov v življenjskem ciklu in ETL izven Hadoopa, prav tako pa imate tudi aplikacije za neposredno analitiko, ki jih lahko zaženete na Hadoopu.

In zato je postal zelo močan in tam, kjer se uspešno izvaja in izvaja, ponavadi ima vsaj zbirko tovrstnih aplikacij, ki deluje nad njim. In večina teh aplikacij, zlasti tistih, s katerimi sem bil seznanjen, trenutno ni na voljo v osnovnem okviru. Lahko pa jih zaženete v mainframe, na skupini Hadoop, ki se izvaja v razdelku mainframe.

Podatkovno jezero postaja po mojem mnenju naravno območje za hitro analizo baz podatkov in za BI. Postane kraj, kamor sprejemate podatke, naj gre za korporativne podatke ali zunanje podatke, z njimi se spopadajte, dokler ne rečemo, da so dovolj čisti in uporabni ter dobro strukturirani, da jih nato uporabite. In vse to je še v povojih.

Po mojem mnenju o sožitju mainframe / Hadoop je prva stvar, da velika podjetja verjetno ne bodo opustila mainframe. V resnici kažejo, da sem pred kratkim videl, da naraščajoča naložba v mainframe. A tudi Hadoop ekosistema ne bodo prezrli. Opazim podatke o 60 odstotkih velikih podjetij, ki uporabljajo Hadoop, tudi če jih veliko dejansko samo oblikuje in eksperimentira.

Takrat je glavno vprašanje: "Kako naj ti dve stvari sobivata?", Ker bosta morala deliti podatke. Podatki, ki jih vnesejo v podatkovno jezero, jih morajo prenesti v glavni okvir. Podatki, ki so v osnovnem okviru, bodo morda morali iti do podatkovnega jezera ali skozi podatkovno jezero, da bi se lahko pridružili drugim podatkom. In to se bo zgodilo. To pomeni, da potrebuje hiter prenos podatkov / možnost ETL. Ni verjetno, da se bodo delovne obremenitve dinamično delile v, recimo, osrednjem okolju ali z nečim v okolju Hadoop. To bodo podatki, ki se delijo. In večina podatkov bo neizogibno prebivala na Hadoopu zgolj zato, ker je zanjo najcenejša platforma. In tam bo verjetno prebivala tudi končna analitična obdelava.

Če povzamemo, na koncu moramo razmišljati v smislu korporacijskega podatkovnega sloja, ki bo za mnoga podjetja vključeval mainframe. In to podatkovno plast je treba proaktivno upravljati. V nasprotnem primeru ne bosta dobro obstajala. Lahko ti vrnem žogo, Eric.

Eric Kavanagh: Spet Tendü, pravkar sem vas postavil za voditelja, zato ga vzemite.

Tendü Yogurtçu: Hvala, Eric. Hvala, ker ste me imeli. Pozdravljeni vsi. Govoril bom o izkušnji Syncsorta s strankami v zvezi s tem, kako vidimo, da so podatki kot sredstvo v organizaciji izravnani od mainframea do velikih podatkov na analitičnih platformah. In upam, da bomo tudi ob koncu zasedanja imeli čas, da bomo imeli vprašanja občinstva, ker je to res najbolj dragocen del teh spletnih oddaj.

Samo za ljudi, ki ne vedo, kaj počne Syncsort, je Syncsort programsko podjetje. V resnici smo že več kot 40 let. Začeli smo na strani mainframea, naši izdelki pa segajo od mainframe do Unixa do velikih podatkovnih platform, vključno s Hadoop, Spark, Splunk, tako v prostorih kot v oblaku. Naš poudarek je bil vedno na izdelkih s podatki, obdelavi in ​​integraciji podatkov.

Naša strategija v zvezi z velikimi podatki in Hadoopom je že od prvega dne postala del ekosistema. Kot lastniki prodajalcev, ki so bili resnično osredotočeni na obdelavo podatkov z zelo lahkimi motorji, smo mislili, da obstaja velika priložnost, da Hadoop postane platforma za obdelavo podatkov in postane del te arhitekture skladišča podatkov naslednje generacije organizacije. Od leta 2011 sodelujemo pri odprtokodnih projektih Apache, začenši z MapReduce. Nekateri naši konektorji so objavljeni v paketih Spark, ki so bili v prvi deseterici za Hadoop različice 2 in so dejansko sodelovali v več projektih, vključno s paketi Spark.

Uporabljamo naš zelo lahek mehanizem za obdelavo podatkov, ki je popolnoma ploskovni metapodatki in se zelo dobro poda s porazdeljenimi datotečnimi sistemi, kot je Hadoop Distributed File System. In svojo dediščino usmerjamo v glavni okvir, svoje znanje z algoritmi, ko postavljamo svoje izdelke z velikimi podatki. In zelo tesno sodelujemo z glavnimi prodajalci, glavnimi igralci, vključno s Hortonworks, Cloudera, MapR, Splunk. Podjetje Hortonworks je pred kratkim napovedalo, da bodo naš izdelek prodali za ETL na krovu s Hadoopom. Z Dell in Cloudera imamo zelo tesno partnerstvo, ki prodaja tudi naš ETL izdelek kot del njihove velike opreme. In s Splunkom pravzaprav objavljamo telemetrijo in varnostne podatke mainframeja na nadzornih ploščah Splunk. Imamo tesno partnerstvo.

Kaj je v mislih vsakega izvršnega direktorja na ravni C? V resnici je, "Kako uporabim svoja podatkovna sredstva?" Vsi govorijo o velikih podatkih. Vsi govorijo o Hadoopu, Sparku, naslednji računalniški platformi, ki mi bo morda pomagala ustvariti poslovno okretnost in odpirati nove transformativne aplikacije. Nove priložnosti za trženje. Vsak posamezni izvršni direktor razmišlja: "Kakšna je moja podatkovna strategija, kakšna je moja podatkovna pobuda in kako poskrbim, da ne bom zaostajal za svojo konkurenco in sem v naslednjih treh letih še vedno na tem trgu?" glejte to, ko govorimo s strankami, kakor tudi z našo svetovno bazo strank, kar je precej veliko, kot si lahko predstavljate, saj smo že nekaj časa.

Ko se pogovarjamo z vsemi temi organizacijami, to tudi vidimo v tehnološkem paketu v motenju, ki se je zgodilo s Hadoopom. Res je, da bi zadostili temu povpraševanju po podatkih kot prednostni osebi. Izkoriščanje vseh podatkovnih sredstev, ki jih ima organizacija. In videli smo, da se arhitektura skladišč podatkov podatkov razvija tako, da je Hadoop zdaj novo središče sodobne arhitekture podatkov. In večina naših strank, naj gre za finančne storitve, ne glede na to, ali gre za zavarovanje, telekomunikacije na drobno, pobude so običajno bodisi ugotovimo, da je Hadoop kot storitev ali podatki kot storitev. Ker se vsi trudijo, da bi bila sredstva podatkov na voljo za njihove zunanje ali notranje stranke. In v nekaterih organizacijah opažamo pobude, kot je skoraj trg podatkov za njihove stranke.

In eden prvih korakov, ki je dosegel, je ustvarjanje vozlišča podatkov o podjetju. Včasih bodo ljudje poimenovali podatkovno jezero. Ustvarjanje tega vozlišča podatkov v podjetju dejansko ni tako enostavno, kot se sliši, saj resnično potrebuje dostop do in zbiranje skoraj vseh podatkov v podjetju. In ti podatki so zdaj iz vseh novih virov, kot so mobilni senzorji, pa tudi iz starih baz podatkov in so v paketnem in pretočnem načinu. Integracija podatkov je bila od nekdaj izziv, vendar je število in raznolikost virov podatkov ter različni slogi dostave, ne glede na to, ali gre za paketno ali pretočno sprotno prenašanje, v tem času še bolj zahteven v primerjavi s petimi leti, pred desetimi leti. Včasih ga imenujemo kot: "Ni več ETL tvojega očeta."

Torej govorimo o različnih podatkih. Podjetja poskušajo smiselno razumeti nove podatke, podatke, ki jih zbirajo iz mobilnih naprav, ne glede na to, ali so senzorji proizvajalca avtomobilov ali pa gre za uporabniške podatke podjetja za mobilne igre, ki jih pogosto potrebujejo, da navedejo najbolj kritična sredstva podatkov v podjetje, na primer informacije o strankah. Ta najbolj kritična podatkovna sredstva pogosto živijo v osnovnem okviru. Povezava podatkov mainframe z novimi novimi viri, zbrani v oblaku, zbrani preko mobilnih naprav, zbrani na proizvodni liniji japonskega avtomobilskega podjetja ali interneta aplikacij za stvari, morajo smiselno upoštevati te nove podatke s sklicevanjem na njihove zapuščene nabore podatkov. Ti nasedanji nabori podatkov so pogosto na glavni ravni.

In če ta podjetja tega ne zmorejo, se ne morejo vključiti v podatke mainframe-a, potem je zamujena priložnost. Potem se podatki kot storitev ali izkoriščanje vseh podatkov podjetja v resnici ne uporabijo za najbolj kritična sredstva v organizaciji. Obstaja tudi del telemetrije in varnostnih podatkov, ker v glavnem živijo vsi podatki o transakcijah.

Predstavljajte si, da bi šli na bankomat, mislim, da je eden od udeležencev tukaj udeležencem poslal sporočilo za zaščito bančnega sistema, ko vlečete s svojo kartico, da so podatki transakcij v svetovnem merilu precej globalni. Zaščita in zbiranje varnostnih podatkov in telemetrijskih podatkov iz glavnih okvirjev in njihovo dostopanje prek Splunk nadzornih plošč ali drugih naprav, Spark, SQL, postane bolj kritična kot kadar koli prej, zaradi obsega podatkov in raznolikosti podatkov.

Nabor spretnosti je eden največjih izzivov. Ker imate na eni strani hitro spreminjajočo se zbirko velikih podatkov, ne veste, kateri projekt bo preživel, kateri projekt ne bo preživel, ali naj najamem razvijalce Hive ali Pig? Naj vlagam v MapReduce ali Spark? Ali naslednja stvar, Flink, je nekdo rekel. Naj vlagam v eno od teh računalniških platform? Po eni strani je spremljanje hitro spreminjajočega se ekosistema izziv, na drugi strani pa imate te zapuščene vire podatkov. Novi sklopi spretnosti se v resnici ne ujemajo in morda imate težave, ker se ti viri dejansko umaknejo. Obstaja velik razkorak v naboru spretnosti ljudi, ki razumejo te stare zasnove podatkov in razumejo nastajajoči tehnološki nabor.

Drugi izziv je upravljanje. Ko resnično dostopate do vseh podatkov podjetja na platform, imamo kupce zaskrbljenost glede tega: "Ne želim, da moji podatki pristajajo. Ne želim, da se moji podatki kopirajo na več mestih, ker se želim čim več izogniti več kopijam. Želim imeti dostop od konca do konca, ne da bi ga tam pristali na sredini. "Upravljanje teh podatkov postane izziv. Drugi del pa je, da če dostopate do podatkov, ki predstavljajo ozka grla, če zbirate večino svojih podatkov v oblaku in dostopate do njih ter se sklicujete na njih podedovane podatke, bo pasovna širina omrežja postala težava, platforma gruče. Obstajajo številni izzivi v zvezi s to pobudo za velike podatke in naprednimi analitičnimi platformami in hkrati izkoriščajo vse podatke o podjetju.

Syncsort ponuja, da smo imenovani "preprosto najboljši", ne zato, ker smo preprosto najboljši, ampak se naše stranke resnično sklicujejo na nas kot na najboljšega pri dostopu in integraciji podatkov mainframe. Podpiramo vse formate podatkov iz mainframe-a in omogočamo njihovo veliko analitiko. Naj bo to v Hadoopu ali Sparku ali naslednji računalniški platformi. Ker naši izdelki resnično izolirajo kompleksnost računalniške platforme. Kot razvijalec se potencialno razvijate na prenosnem računalniku, se osredotočate na podatkovni niz in kakšne so priprave podatkov, korake, kako narediti te podatke za analitiko, naslednjo fazo in uporabite isto aplikacijo v MapReduce ali vzemite to enaka aplikacija v Sparku.

Našim strankam smo pomagali pri tem, ko je YARN postala na voljo in so morali svoje aplikacije iz MapReduce različice 1 premakniti v YARN. Pomagamo jim narediti enako z Apache Spark. Naš izdelek, nova izdaja 9, deluje tudi s Sparkom in ponuja dinamično optimizacijo, ki bo te aplikacije izolirala za prihodnje računalniške okvire.

Tako imamo dostop do podatkov mainframea, ne glede na to, ali gre za datoteke VSAM, ne glede na to, ali gre za DB2 ali pa je telemetrične podatke, kot so SMF zapisi ali Log4j ali syslogs, ki jih je treba vizualizirati prek Splunk nadzornih plošč. In čeprav to počne, ker lahko organizacija vzpostavi svoje obstoječe podatkovne inženirje ali naloge spretnosti ETL, se razvojni čas znatno skrajša. Dejansko je bilo pri Dellu in Clouderi sponzorirano neodvisno referenčno merilo in to merilo se je osredotočilo na razvojni čas, ki je potreben, če delate ročno kodiranje ali uporabljate druga orodja, kot je Syncsort, in je bilo približno 60, 70-odstotno zmanjšanje časa razvoja . Premostitev spretnosti določa vrzel med skupinami, med temi gostitelji podatkovnih datotek in tudi gostitelji teh podatkovnih datotek v smislu ljudi.

Običajno skupina za velike podatke ali skupina za zajem podatkov ali ekipa, ki je zadolžena za razvoj teh podatkov kot arhitekture storitev, ne govorijo nujno z ekipo mainframe. Te interakcije želijo zmanjšati skoraj v mnogih organizacijah. Z zapolnitvijo te vrzeli smo napredovali. In najpomembnejši del je resnično zavarovanje celotnega postopka. Ker v podjetju, ko se ukvarjate s tovrstnimi občutljivimi podatki, obstaja veliko zahtev.

V zelo reguliranih panogah, kot so zavarovalništvo in bančništvo, naše stranke vprašajo: "Ponujate ta dostop do podatkov mainframe in to je odlično. Mi lahko tudi ponudite, da ta zapis zapisa, kodiran z EBCDIC, ostane v prvotni obliki, da bom lahko izpolnil svoje zahteve po reviziji? “Tako Hadoop in Apache Spark razumeta podatke mainframea. Podatke lahko hranite v izvirni obliki zapisa, naredite računalniško platformo za obdelavo in raven distribucijskega računalnika, in če morate to vrniti, lahko pokažete, da se zapis ni spremenil in format zapisa ni spremenjen, lahko izpolnite regulativne zahteve .

In večina organizacij, ko ustvarjajo podatkovno središče ali podatkovno jezero, to poskušajo storiti tudi z enim klikom, da lahko metapodatke iz stotine shem v zbirki Oracle preslika v tabele Hive ali ORC ali datoteke Parquet postane potrebno. Pošiljamo orodja in ponujamo orodja, s katerimi omogočimo enostopenjski dostop do podatkov, samodejno ustvarjanje opravil ali gibanje podatkov in samodejno ustvarjanje opravil za izdelavo preslikave podatkov.

Govorili smo o delu povezovanja, skladnosti, upravljanju in obdelavi podatkov. Naši izdelki so na voljo tako v prostorih kot v oblaku, kar je zelo preprosto, saj podjetjem ni treba razmišljati o tem, kaj se bo zgodilo v naslednjem letu ali dveh, če se odločim, da bom v celoti v javnem oblaku v primerjavi s hibridnim okolju, saj nekateri grozdi morda delujejo v prostorih ali v oblaku. Naši izdelki so na voljo tako na Amazon Marketplace, na EC2, Elastic MapReduce kot tudi na Dockerjevem zabojniku.

Samo za zaključek, tako da imamo dovolj časa za vprašanja in vprašanja, gre res za dostop, vključevanje in usklajevanje z upravljanjem podatkov, hkrati pa vse to poenostavimo. In čeprav je to preprostejše, „enkrat oblikuj in uvajaj kamor koli“ v pravem pomenu zaradi naših odprtokodnih prispevkov naš izdelek deluje domače v toku podatkov Hadoop in izvirno s Sparkom, s čimer izolira organizacije iz hitro spreminjajočega se ekosistema. In ponuja en sam podatkovni cevovod, en sam vmesnik, tako za paketno kot za pretakanje.

In to tudi pomaga organizacijam, da včasih ovrednotijo ​​te okvire, saj boste morda želeli dejansko ustvariti aplikacije in preprosto zagnati MapReduce proti Spark in se prepričati, da, Spark to obljublja in zagotavlja ves napredek v iterativnih algoritmih za najboljše strojno učenje in aplikacije za napovedovalno analitiko delujejo s Sparkom, ali lahko tudi v tem računalniškem okviru opravim svoje pretočne in paketne delovne obremenitve? Z našimi izdelki lahko preizkusite različne računalniške platforme. In dinamična optimizacija, ne glede na to, ali delujete na samostojnem strežniku, na prenosniku, v Googlovem oblaku v primerjavi z Apache Spark, je resnično velika vrednost za naše stranke. In resnično so ga gnali izzivi, ki so jih imeli.

Zajel bom samo eno od študij primerov. To je Guardian Life Insurance Company. Pobuda Guardiana je bila resnično centralizirati njihova podatkovna sredstva in jih dati na razpolago svojim strankam, skrajšati čas za pripravo podatkov in rekli so, da vsi govorijo o pripravi podatkov in zavzamejo 80 odstotkov celotnega cevovoda za obdelavo podatkov, in rekli so, da gre v resnici za 75 do 80 odstotkov zanje in želeli so zmanjšati čas priprave podatkov, čas preoblikovanja, čas za prodajo analitičnih projektov. Ustvarite to agilnost, ko dodajajo nove vire podatkov. Osrednji dostop do podatkov naj bo na voljo vsem njihovim strankam.

Njihova rešitev, vključno z izdelki Syncsort, je zdaj na trgu Amazo Marketplace v obliki podobnih podatkov, podprt s podatkovnim jezerom, ki je v osnovi Hadoop, in podatkovno bazo NoSQL. Naši izdelki uporabljajo za prenos vseh podatkovnih podatkov v podatkovno jezero, vključno z DB2 v osnovnem okviru, vključno z datotekami VSAM v osnovnem okviru in starejšimi podatkovnimi viri baze podatkov ter novimi viri podatkov. Kot rezultat tega so centralizirali podatkovna sredstva za večkratno uporabo, ki so iskalna, dostopna in na voljo njihovim strankam. In resnično lahko dodajo nove vire podatkov in svojim strankam nudijo storitve veliko hitreje in učinkoviteje kot prej. A pobude za analitiko celo bolj napredujejo na strani napovedi. Torej bom prestal in upam, da je bilo to koristno in če imate kakršna koli vprašanja o kateri koli od teh tem, prosim, dobrodošli.

Eric Kavanagh: Seveda, in Tendü, samo enkrat ga bom vrgel. Dobil sem komentar od občinstva, ki je rekel: "Enkrat mi je všeč takšen dizajn, razporedi se kamor koli." Mislim, kaj ste storili, da omogočite takšno okretnost in ali obstaja kakšen davek? Kot recimo, ko govorimo o virtualizaciji, je na primer vedno malo davka na uspešnost. Nekateri pravijo dva odstotka, pet odstotkov 10 odstotkov. Kaj ste storili, da bi zasnovo omogočili enkrat, se umaknite kamor koli - kako to storite in ali je z njim povezan kakšen davek v smislu učinkovitosti?

Tendü Yogurtçu: Seveda, hvala. Ne, ker za razliko od nekaterih drugih prodajalcev v resnici ne ustvarimo Hive ali Pig ali kakšne druge kode, ki ni domača za naše motorje. Tu so imeli naši prispevki z odprto kodo ogromno vlogo, saj zelo tesno sodelujemo s prodajalci Hadoop, Cloudera, Hortonworks in MapR, zaradi odprtokodnih prispevkov pa naš motor pravzaprav deluje izvorno kot del toka, kot del toka Hadoop, kot del Iskrice.

Tudi to pomeni, da imamo dinamično optimizacijo. To je bilo nekaj, kar je nastalo zaradi izzivov naših strank z računalniškimi okviri. Ko so šli v proizvodnjo z nekaterimi aplikacijami, so se vrnili in rekli: "Pravkar stabiliziram svojo skupino Hadoop, stabiliziram se na MapReduce YARN različice 2, različici MapReduce 2 in ljudje govorijo, da je MapReduce mrtev, iskrenje je naslednja stvar, in nekateri ljudje pravijo, da bo Flink naslednja stvar, kako se bom spoprijel s tem? "

In ti izzivi so nam res postali tako očitni, da smo vložili to dinamično optimizacijo, ki ji rečemo inteligentna izvedba. V času izvajanja, ko se opravilo ob predložitvi tega podatkovnega plinovoda na podlagi grozda, pa naj bo to Spark, ne glede na to, ali je MapReduce ali samostojni strežnik Linux, odločimo, kako bomo to nalogo izpeljali izvirno v našem motorju kot del tega Hadoop ali Spark pretok podatkov. Ni režijskih stroškov, ker se vse naredi s pomočjo dinamične optimizacije, ki jo imamo, in vse je tudi storjeno, ker je naš motor tako domače integriran zaradi naših odprtokodnih prispevkov. Ali to odgovarja na vaše vprašanje?

Eric Kavanagh: Ja, to je dobro. Rad bi postavil še eno vprašanje tja in Dez, potem bomo morda potegnili tudi tebe in Robina. Pravkar sem dobil zabaven komentar ene od naših udeležencev. Prebral jo bom, ker je res precej hudomušno. Piše: "Zdi se, da je v zgodovini stvari vroče" - razumete? Tako kot IoT - "toliko bolj, ko poskušate 'poenostaviti' nekaj, kar je resnično zapleteno, pogosteje kot ne preprostejše, kar počne, več viseče vrvi je na voljo. Pomislite na poizvedbo po bazah podatkov, eksplozijo, večnarezno nit itd. "Ali lahko komentirate ta paradoks, ki ga navaja? Enostavnost v primerjavi s kompleksnostjo in kaj se v resnici dogaja pod platnicami?

Tendü Yogurtçu: Seveda. Mislim, da je to zelo veljavna točka. Ko stvari poenostavljate in izvajate te optimizacije, mora nekdo pod pokrovi skrbeti zapletenost tega, kar se mora zgoditi, kajne? Če nekaj paralizirate ali če se odločite, kako voditi določeno opravilo v zvezi z računalniškim okvirom, je očitno nek del dela, ki se ga pritiska, ne glede na to, ali je na uporabniškem koncu, kodiranju menija ali pa pri optimizaciji motorja. Del tega je, saj s poenostavitvijo uporabniške izkušnje obstaja velika korist, ker lahko uporabimo naloge spretnosti, ki obstajajo v podjetju.

In lahko paradoks nekako omilite, ublažite ta izziv: "Ja, ampak nimam nadzora nad vsem, kar se dogaja pod pokrovom, pod pokrovom motorja", tako da stvari izpopolnite naprednejšim uporabnikom, če želite imeti tak nadzor. Z vlaganjem tudi v nekatere vrste uporabnosti stvari. Zmožnost ponudbe več operativnih metapodatkov, več operativnih podatkov, kot je v primeru, ki ga je dal ta udeleženec, za poizvedbo SQL in tudi zagnani motor. Upam, da odgovori.

Eric Kavanagh: Ja, to se sliši dobro. Dez, vzemi ga.

Dez Blanchfield: Resnično si želim, da bi malo bolj vpogledal v vaš odtis pri odprtokodnih prispevkih in potovanju, ki ste ga izkoristili iz tradicionalnih, dolgoletnih izkušenj z mainframeom in lastniškim svetom, nato pa preusmerite v prispevanje k odprtokodni kodi in kako je to potekalo. In druga stvar, ki jo želim razumeti, je pogled, ki ga vidite, da podjetja, ne samo oddelki za IT, ampak podjetja sprejemajo glede na vozlišča podatkov ali podatkovna jezera, kot pravijo ljudje zdaj, in ali vidijo ta trend samo eno samo konsolidirano podatkovno jezero ali opazimo razpršena podatkovna jezera in ljudje uporabljajo orodja, da jih sestavijo skupaj?

Tendü Yogurtçu: Seveda. Za prvo je bilo to kot lastniško programsko podjetje, eno prvih po IBM-u, zelo zanimiva pot. Vendar pa se je spet vse začelo pri naših evangelističnih kupcih, ki so si ogledali Hadoop. Imeli smo podatkovna podjetja, kot je ComScore, ena izmed prvih so sprejela Hadoop, ker so zbirali digitalne podatke po vsem svetu in 90 dni niso mogli hraniti podatkov, razen če so v svoje skladišče podatkov shranili deset milijonov dolarjev okolje. Začeli so gledati Hadoop. S tem smo začeli gledati tudi Hadoop.

In ko smo se odločili in priznali, da bo Hadoop resnično podatkovna platforma prihodnosti, smo tudi razumeli, da v tem ne bomo mogli igrati, uspešne igre, razen če so bili del ekosistema. In zelo smo tesno sodelovali s prodajalci Hadoop, s Cloudero, Hortonworks, MapR itd. Z njimi smo se začeli resnično pogovarjati, saj partnerstvo postane zelo pomembno za potrjevanje vrednosti, ki jo lahko prinese prodajalec, in tudi poskrbi, da bomo lahko skupaj sodelovali v podjetju in ponujajo nekaj bolj smiselnega. Zahtevalo je veliko vzpostavljanja odnosov, saj nam Apache odprti izvorni projekti niso bili znani, vendar moramo imeti veliko podporo teh prodajalcev Hadoop, moram reči.

Začeli smo sodelovati in si ogledovati središče, kako lahko prinesemo vrednost brez svoje programske opreme za lastnike. To je bilo pomembno. Ne gre samo za postavitev nekaterih API-jev, s katerimi se lahko uporablja vaš izdelek, ampak, da lahko rečem, da bom v to vlagal, ker verjamem, da bo Hadoop platforma prihodnosti, torej z vlaganjem v vire, ki smo jih želeli narediti prepričani, da dozoreva in postane podjetje pripravljeno. Dejansko lahko omogočimo nekatere primere uporabe, ki niso bili na voljo pred našimi prispevki. To bo koristilo celotnemu ekosistemu in ta partnerstva bomo lahko zelo tesno razvijali.

To je trajalo precej časa. Prispevati smo začeli leta 2011 in 21. januarja 2013 - spominjam se datuma, ker je bil tisti dan zavezan naš največji prispevek, kar je pomenilo, da bomo od tega trenutka lahko imeli svoje izdelke na splošno na voljo - trajalo je kar nekaj časa, da se razvijejo ti odnosi, pokažejo vrednost, partnerji postanejo oblikovalski partnerji s prodajalci in z zavezniki v odprtokodni skupnosti. Vendar je bilo zelo zabavno. Kot podjetje se nam je izplačalo, da smo del tega ekosistema in razvijamo veliko partnerstvo.

Drugo vprašanje o podatkovnem vozlišču / podatkovnem jezeru, mislim, da ko gledamo te podatke kot izvajanje storitve v večini primerov, da, to so lahko grozdi, fizično enojni ali več skupin, vendar je bolj konceptualno kot to, da postanemo to eno samo mesto za vse podatke. Ker v nekaterih organizacijah opažamo velike razporeditve grozdov, pa imajo tudi grozde, na primer, v javnem oblaku, ker se nekateri podatki, zbrani iz spletnih odsekov, resnično hranijo v oblaku. Pomemben je lahko en sam podatkovni cevovod, s katerim lahko dejansko izkoristite oboje in jih uporabite kot eno samo podatkovno središče, enotno podatkovno jezero, postane pomembno. Ni nujno le fizično mesto, ampak mislim, da bo to središče podatkov in podatkovno jezero po grozdih, po zemljepisih in morda v prostorih in oblaku zelo kritično. Še posebej se premika naprej. Letos smo začeli opažati vedno več uvajanja v oblak. Neverjetno je. V prvi polovici letošnjega leta smo doslej videli veliko uvajanja v oblak.

Eric Kavanagh: V redu, kul. In Robin, imaš kakšna vprašanja? Vem, da nam preostane še nekaj minut.

Robin Bloor: V redu, lahko ji postavim vprašanje. Prvo, kar se mi je pripetilo, je, da je bilo nad Kafko veliko navdušenja in zanimalo me je vaše mnenje o Kafki in kako se integrirate z načinom, kako ljudje uporabljajo Kafko?

Tendü Yogurtçu: Seveda. Da, Kafka postaja precej priljubljena. Med našimi strankami vidimo, da je to nekakšen sloj prenosa podatkov in gledamo, da so podatki vodila, precej. Na primer, eden od naših kupcev je dejansko uporabljal vrsto porabnih podatkov, ki so jih v to Kafko potisnili med več, kot je na tisoče spletnih uporabnikov in jih je mogoče razvrstiti in prebiti.

Ponovno je Kafka podatkovna povezava do različnih porabnikov teh podatkov. Razvrstite nekatere napredne uporabnike v primerjavi z ne tako naprednimi uporabniki in naredite nekaj drugačnega, da se premaknete naprej v tem podatkovnem sklopu. Kako se v osnovi povezujemo s Kafko, naš izdelek DMX-h postane zanesljiv potrošnik, visoko učinkovit, zanesljiv potrošnik za Kafko. Lahko prebere podatke in to ni nič drugače kot branje podatkov iz katerega koli drugega vira podatkov za nas. Uporabnikom omogočamo nadzor nad oknom glede na časovno zahtevo ali število sporočil, ki jih lahko porabijo iz vodila Kafka. Potem lahko te podatke tudi obogatimo, ko gre skozi naš izdelek in se potisnemo nazaj v Kafko. To smo preizkusili. Primerjali smo ga na mestu strank. Potrjeno tudi s strani Confluent. Tesno sodelujemo s fanti Confluent in je zelo zmogljiv in enostaven za uporabo. Tudi tam se API-ji spreminjajo, vendar vam ni treba skrbeti, ker izdelek to resnično obravnava kot le še en vir podatkov, vir pretočnega podatkov. Delo z našim izdelkom in Kafko je pravzaprav zabavno.

Robin Bloor: V redu, imam še eno vprašanje, ki je zgolj splošno poslovno vprašanje, vendar Syncsort poznam že dolgo in vedno ste imeli ugled in zagotavljali izjemno hitro programsko opremo za ETL in svet mainframea. Je že tako, da se večina vašega podjetja zdaj preusmeri na Hadoop? Ali je tako, da ste na tak ali drugačen način svoje podjetje precej dramatično razširili iz sveta mainframea?

Tendü Yogurtçu: Naši izdelki mainframe še vedno predstavljajo 50 odstotkov mainframs globalno. Tako imamo poleg močnih podatkov o velikem podatku in Hadoop koncu zelo močno linijo izdelkov mainframe. In še vedno smo pri večini projektov za poenostavitev ali optimizacijo IT, ker je en konec, ki ga želite vključiti v svoje podatke mainframe na velikih podatkovnih platformah Multex in izkoristiti vse podatke podjetja, vendar obstajajo tudi zelo kritične transakcijske obremenitve ki še vedno deluje v glavnem okviru in tem strankam ponujamo načine za resnično učinkovitejšo uporabo teh aplikacij, zagon v zIIP motorju, tako da ne porabijo toliko ciklov obdelave in MIPS, zaradi česar so stroškovno učinkovite.

Še naprej vlagamo v izdelke mainframea in se dejansko igramo v tem prostoru, kjer ljudje gredo od mainframe velikega železa do velikih podatkov in razpolagajo z linijo izdelkov tudi na teh platformah. Torej ni nujno, da celotno podjetje preusmerimo na eno stran, še naprej imamo zelo uspešno poslovanje na obeh straneh. In pridobitve so velik poudarek tudi na nas. Ker se ta prostor za upravljanje podatkov in obdelava podatkov za velike podatkovne platforme razvija, se tudi mi zavezujemo, da bomo naredili kar nekaj brezplačnih pridobitev.

Robin Bloor: No, ne morem vas vprašati, kaj so, ker mi ne bi smeli povedati. Zanima me, ali ste videli številne izvedbe Hadoop ali Spark dejansko v osnovnem okviru ali pa je to zelo redka stvar.

Tendü Yogurtçu: Nismo še videli nobenega. Glede tega je več vprašanj. Mislim, da Hadoop na mainframeu ni imel veliko smisla zaradi vrste osrednje strukture. Vendar pa je Spark v mainframeu precej smiseln in Spark je resnično zelo dober pri strojnem učenju in prediktivni analitiki in če bi lahko imeli nekatere od teh aplikacij s podatki mainframeja, je resnično smiselno. Nismo še videli nikogar, ki pa to počne, vendar je to resnično uporaben primer. Če vaš primer uporabe kot podjetje bolj prinaša te podatke mainframeja in se povezuje z ostalimi zbirkami podatkov na veliki podatkovni platformi, je to ena zgodba. Zahteva dostop do podatkov mainframe z platforme Multex z velikimi podatki, ker verjetno ne boste prinesli svojih zbirk podatkov iz odprtih sistemov in jih poklicali nazaj v mainframe. Če pa imate nekaj podatkov mainframe, ki jih želite samo raziskati in narediti malo odkritja raziskovanja podatkov, uporabiti nekaj naprednega AI in napredne analitike, potem je Spark morda dober način za to in zagnati v mainframe.

Eric Kavanagh: In tu je še eno vprašanje občinstva, pravzaprav še dve. Vprašal vam bom vprašanje skupine, nato pa bomo končali. En udeleženec se sprašuje, "ali IBM integrira vaše odprtokodne prispevke v svoj javni ekosistem v oblaku, z drugimi besedami, Bluemix?" In drugi udeleženec je zelo dobro poudaril, da je Syncsort odličen za ohranjanje živega železa za tiste, ki že ima, toda če se podjetja odpovejo novim glavnim okvirom v prid temu, kar imenuje CE, vse skupaj zakrknejo, bo to verjetno upadlo, vendar ugotavlja, da fantje res dobro premikate podatke tako, da operacijske sisteme obidete do gigabajta na sekundo. Ali se lahko, kot je omenil, pogovarjate o svoji osnovni moči in ali IBM vaše stvari integrira v Bluemix ali ne?

Tendü Yogurtçu: S podjetjem IBM smo že partnerji z IBM-om in imeli smo razgovore o njihovih storitvah podatkovnega oblaka, ki ponujajo izdelek. Naši odprtokodni prispevki so odprti za vse, ki jih želijo izkoristiti. Nekatera povezljivost z glavnim okvirom je na voljo tudi v paketih Spark, torej ne samo v IBM-u. Kdorkoli jih lahko izkoristi. V Bluemixu še nismo ničesar konkretno storili. In ali ne zamišite ponoviti drugega vprašanja?

Eric Kavanagh: Ja, drugo vprašanje se je nanašalo na vaše osnovno področje funkcionalnosti v preteklih letih, ki je resnično obvladalo ozka grla ETL-a in očitno to še vedno počnete kot mainfram, no, teoretično se ne držite, čeprav Dezovi točka je še vedno nekako zibanje in kotaljenje tam. Toda udeleženec je pravkar opozoril, da je Syncsort zelo dober pri premikanju podatkov tako, da obide operacijske sisteme in do gigabajta na sekundo. Lahko to komentirate?

Tendü Yogurtçu: Da, resnična splošna učinkovitost virov je bila naša moč, razširljivost in zmogljivost pa naša moč. Ne kompromitiramo, poenostavitev ima veliko pomenov, z njimi ne kompromiramo. Ko so se na primer leta 2014 ljudje začeli pogovarjati o Hadoopu, mnoge organizacije sprva resnično niso gledale na uspešnost. Govorili so: "Oh, če se kaj zgodi, lahko dodam še nekaj vozlišč in bom v redu, uspešnost ni moja zahteva."

Medtem ko smo se pogovarjali o najboljši uspešnosti, ker smo že tekli po domače, sploh nismo imeli nekaterih začetnih hiccups, ki jih je imel Hive z več opravki MapReduce in režijskimi stroški ob njihovem zagonu. Ljudje so nam govorili: "Oh, to me ne skrbi. V tem trenutku ne skrbite."

Ko smo prišli leta 2015, se je ta pokrajina spremenila, ker so nekateri naši kupci že presegli skladišče, ki so ga imeli v svojih proizvodnih grozdih. Zanjo je postalo zelo kritično videti, kaj lahko Syncsort ponudi. Če vzamete nekaj podatkov iz baze podatkov ali mainframe in v grozde pišete v parketno obliko, ali pristanete in postavite in naredite drugo transformacijo ali samo naredite preletno transformacijo in obliko ciljne datoteke pristanka, je to spremenilo, ker varčujete iz shranjevanje, prihranite iz pasovne širine omrežja, prihranite pri obremenitvi v grozdu, ker ne izvajate dodatnih opravil. Zdi se, da so tiste moči, ki jih igramo v smislu, da smo zelo zavestni, pod svojo kožo čutili učinkovitost virov.

Tako ga opisujemo. Za nas je to kritično. Ne jemljemo ga za samoumevno. Nikoli je nismo sprejeli za samoumevno, zato bomo še naprej močni s tem vzvodom v Apache Spark ali naslednjem računalniškem okviru. To bo še naprej naša pozornost. Kar zadeva del gibanja podatkov in dostop do podatkov, je vsekakor ena od naših prednosti in dostopamo do podatkov DB2 ali VSAM na glavnih mestih v okviru Hadoop ali Spark.

Eric Kavanagh: No, to je odličen način za konec spletnega prenosa, ljudje. Najlepša hvala za vaš čas in pozornost. Zahvaljujem se vam, Tendü in Syncsort, da ste prišli v sejo in stopili v krog, kot pravijo. Veliko odličnih vprašanj občinstva. Ljudje smo vedno v ganljivem okolju. Arhivirali bomo ta Hot Tech, kot to počnemo z vsemi drugimi. Najdete nas na insideanalysis.com in na techopedia.com. Običajno gre v približno enem dnevu. In s tem se bomo poslovili, ljudje. Najlepša hvala. Kmalu se bomo pogovorili. Pazite. Adijo.

Big iron, izpolnjujte velike podatke: sprostite podatke mainframeja s hadoopom in iskricami