Autorius „Techopedia“ darbuotojai, 2016 m. Birželio 2 d
Paimti: „Hadoop“ ekosistema naudojama pagrindiniuose kompiuteriuose, kad greitai ir efektyviai apdorotų didelius duomenis.
Šiuo metu nesate prisijungęs. Jei norite pamatyti vaizdo įrašą, prisijunkite arba prisiregistruokite.
Ericas Kavanaghas: Gerai, ponios ir ponai, rytoj ketvirtadienis yra keturios valandos, ir šiomis dienomis tai reiškia, kad „Hot Technologies“ laikas, be abejo, yra. Taip, iš tikrųjų mano vardas Ericas Kavanaghas. Aš būsiu jūsų šios dienos internetinio seminaro moderatorius. Tai geri dalykai, žmonės, „Didelis geležis, sutikite didelius duomenis“ - man tiesiog patinka antraštė - „Pagrindinių kompiuterių duomenų išlaisvinimas su„ Hadoop “ir„ Spark ““. Mes kalbėsime apie senus ir naujus. Oho! Mes apžvelgiame viską, apie ką kalbėjome per pastaruosius 50 įmonės IT metų. „Spark“ atitinka pagrindinį kompiuterį, aš jį myliu.
Apie mane tikrai yra pakankamai informacijos ir pakankamai. Metai karšti. Šiame seriale kalbame apie karštas temas, nes mes iš tikrųjų stengiamės padėti žmonėms suprasti tam tikras disciplinas, tam tikras erdves. Ką reiškia turėti, pavyzdžiui, analitinę platformą? Ką reiškia iš pagrindinių kompiuterių išlaisvinti didelius duomenis? Ką reiškia visa ši medžiaga? Mes stengiamės padėti jums suprasti tam tikras technologijas, kur jos tinka ir kaip galite jomis naudotis.
Šiandien turime du analitikus ir, žinoma, Tendü Yogurtçu iš „Syncsort“. Ji yra mūsų erdvės vizionierė, labai malonu, kad šiandien ji prisijungė prie mūsų pačių Dezo Blanchfieldo ir daktaro Robino Blooro. Pasakysiu tik porą greitų žodžių. Viena iš jų yra ta, kad žmonės, jūs, vaidinate didelę įtaką šiame procese, todėl nedvejokite užduoti keletą gerų klausimų. Norėtume patekti į juos per internetinės transliacijos Q&A komponentą, kuris dažniausiai būna laidos pabaigoje. Viskas, ką turiu pasakyti, yra tas, kad turime labai daug gero turinio, todėl nekantrauju išgirsti, ką šie berniukai turi pasakyti. Ir kartu su tuo ketinu perduoti Dez Blanchfield. Dez, grindys yra tavo, atimk jas.
Dez Blanchfield: Ačiū, Ericai, ir ačiū visiems, kad dalyvavote šiandien. Taigi labai susijaudinęs gaunu progą pakalbėti apie vieną iš mėgstamiausių dalykų pasaulyje, pagrindinius. Šiomis dienomis jie nemyli daug meilės. Mano nuomone, pagrindinis kompiuteris buvo originali didžiųjų duomenų platforma. Kai kas tvirtintų, kad tuo metu jie buvo vienintelis kompiuteris, ir tai yra teisinga mintis, tačiau jau daugiau nei 60 metų jie iš tikrųjų buvo variklio kambarys tam, kokie dideli duomenys vėliau buvo populiarūs. Ir aš eisiu jums į mažą kelionę, kodėl manau, kad taip yra.
Mes matėme kelionę į techninės įrangos krūvas, mainframe kontekste keičiantis vaizdu, kurį matote dabar ekrane. Tai senas FACOM pagrindinis kompiuteris, vienas iš mano mėgstamiausių. Mes perėjome į didelę geležies fazę, 9-ojo dešimtmečio pabaigą ir „dot-com“ bumą. Tai yra „Sun Microsystems E10000“. Šis dalykas buvo absoliutus monstras prie 96 procesorių. Iš pradžių 64, bet jį buvo galima patobulinti esant 96 procesoriams. Kiekvienas procesorius galėtų paleisti 1024 gijas. Kiekviena gija gali būti tuo pačiu metu taikoma. Tai buvo tiesiog nepaprasta ir iš tikrųjų sukėlė „dot-com“ strėlę. Tai yra visi didieji vienaragiai, kaip mes juos vadiname, dabar mes vadovaujame, o ne tik didžiosios įmonės, kai kurios didžiosios svetainės.
Ir tada mes baigėme šį įprastą plataus vartojimo kompiuterio modelį. Mes tiesiog sujungėme daug pigių mašinų ir sukūrėme klasterį, ir mes priėjome prie didelio geležies iššūkio ir to, kas tapo dideliais duomenimis, visų pirma Hadoop projekto, kuris kilo iš atvirojo kodo paieškos variklio „Nutch“, pavidalu. Mes iš esmės atkūrėme pagrindinį pagrindą ir daugybę mažų procesorių, kurie buvo suklijuoti ir sugebėjo veikti kaip „L“ keliai bei vykdyti atskirus darbus ar jų dalis ir buvo labai veiksmingi įvairiais būdais. Pigiau, jei pradėjote nuo mažesnių, tačiau visada daugelis iš šių didelių grupių tapo brangesnės nei pagrindinis kompiuteris.
Mano požiūris į šiuos dalykus yra tas, kad perėję nuo „dot-com“ bumo iki to, kas tapo „Web 2.0“ ir dabar vejasi vienaragius, mes pamiršome, kad ši platforma vis dar maitina daugelį didžiausių mūsų misijai kritinių sistemų. Kai mes galvojame apie tai, kas veikia pagrindinėse platformose. Tai iš tikrųjų yra dideli duomenys, ypač duomenų srautas, bet neabejotinai ir dideli duomenys. Tradicines įmonių ir vyriausybių sistemas, tokias kaip bankininkystė, turto valdymas ir draudimas, mes visi naudojame kiekvieną dieną.
Oro linijų užsakymas ir skrydžių valdymo sistemos, ypač skrydžių valdymas ten, kur realus laikas yra kritinis. Beveik kiekviena valstija ir federalinė vyriausybė tam tikru metu turėjo pagrindinį pagrindą ir neabejotinai daugelis jų vis dar turi. Mažmeninė prekyba ir gamyba. Kai kurios senos programinės įrangos, kuri buvo šalia ir niekur nedingo. Tiesiog toliau gamina gamybos aplinką ir, žinoma, mažmeninę prekybą. Medicinos sistemos. Gynybos sistemos, be abejo, gynybos sistemos.
Per pastarąsias porą savaičių perskaičiau daug straipsnių apie tai, kad visos raketų valdymo sistemos vis dar veikia senais pagrindiniais kompiuteriais, kuriems jie stengiasi rasti dalių. Jie sugalvoja, kaip patobulinti naujus pagrindinius kadrus. Transporto ir logistikos sistemos. Tai gali neatrodyti kaip seksualios temos, tačiau tai yra temos, su kuriomis mes kasdien susiduriame. O kai kurios labai didelės telekomunikacijų aplinkos vis dar valdomos mainframe platformose.
Kai pagalvoji apie turimus duomenų tipus, jie visi yra kritiškai svarbūs. Jos yra tikrai svarbios platformos ir platformos, kurias mes kasdien laikome savaime suprantamais dalykais ir įvairiais būdais įgalina gyvenimą. Taigi, kas vis dar naudojasi pagrindiniu kompiuteriu ir kas yra visi šie žmonės, laikantys šias dideles platformas ir turintys visus šiuos duomenis? Na, kaip čia sakiau, manau, kad nesąžininga yra žiniasklaidos perėjimas nuo didelių geležies prie įprastų klasterių spintų ar pigių kompiuterių ar x86 aparatų, galvojant, kad pagrindinis kompiuteris mirė ir dingo. Tačiau duomenys sako, kad pagrindinis kompiuteris niekur nedingo ir iš tikrųjų čia liko.
Tyrimai, kuriuos čia surinkau per pastarąsias kelias savaites, parodė, kad 70 proc. Visų įmonių, ypač didelių įmonių, duomenys vis dar išlieka tam tikros formos mainframe. 74 procentai „Fortune 500“ vis dar kažkur valdo pagrindines verslo sistemas pagrindiniuose kompiuteriuose. Tiesą sakant, čia, Australijoje, turime nemažai organizacijų, turinčių duomenų centrą miesto viduryje. Tai iš tikrųjų tikrasis požeminis kompiuteris, o tiesiog didžiųjų kompiuterių skaičius tiesiog veikia ten, pažymint ir laimingai atliekant savo darbą. Ir tik nedaugelis žino, kad vaikščiojant gatvėmis, tiesiai po kojomis, vienoje miesto dalyje yra šis didžiulis duomenų centras, užpildytas pagrindiniais kompiuteriais. Devyniasdešimt du iš 100 bankų visame pasaulyje, tai yra 100 geriausių bankų, vis dar valdo bankų sistemas pagrindiniuose kompiuteriuose. Dvidešimt trys iš 25 geriausių mažmeninės prekybos tinklų visame pasaulyje naudoja pagrindinius kompiuterius, kad vis dar galėtų valdyti savo mažmeninės prekybos valdymo sistemas EIP ir BI platformose.
Įdomu tai, kad 10 iš 10 geriausių draudikų vis dar naudoja savo platformas mainframe ir iš tikrųjų teikia debesijos paslaugas mainframe. Jei kur nors naudojate žiniatinklio sąsają ar programą mobiliesiems, kur yra tarpinės programinės įrangos sąsaja, tai kalbėkite su kažkuo, kas yra tikrai sunki ir didelė.
Radau daugiau nei 225 valstybines ir vietos valdžios agentūras visame pasaulyje, vis dar veikiančias su mainframe platformomis. Esu tikras, kad tam yra daug priežasčių. Galbūt jie neturi biudžeto, kad galėtų apsvarstyti naują lygintuvą, tačiau tai yra didžiulis labai didelių aplinkų, veikiančių mainframe, pliusas su labai svarbiais duomenimis. Ir kaip jau minėjau anksčiau, dauguma tautų vis dar valdo pagrindines gynybos sistemas mainframe. Aš tikiu, kad daugeliu atžvilgių jie bando ten nuvykti, bet tu eik.
2015 m. IDC atliko apklausą, o 350 iš apklaustų CIO pranešė, kad jie vis dar valdo ir valdo didelę geležį didžiųjų kompiuterių pavidalu. Ir mane sužavėjo, kad greičiausiai tai daugiau nei šiuo metu visame pasaulyje veikiančių didelio masto „Hadoop“ klasterių skaičius - įdomus mažas statutas. Aš eisiu į priekį ir patvirtinsiu tai, bet tai buvo didelis skaičius. Trys šimtai penkiasdešimt CIO pranešė, kad vis dar gamina vieną ar kelis pagrindinius kadrus.
Praėjusiais metais, 2015 m., IBM mums padovanojo galingą Z13, 13 -tą jų pagrindinio kompiuterio platformos kartojimą. Žiniasklaida apie šį dalyką supyko, nes buvo nustebusi, kad IBM vis dar kuria pagrindinius kompiuterius. Pakėlę gaubtą ir pažiūrėję, kas yra po daiktu, jie suprato, kad tai iš tikrųjų yra lygi beveik kiekvienai šiuolaikinei platformai, apie kurią mes susijaudinome didelių duomenų forma, „Hadoop“ ir, be abejo, grupių. Šis dalykas gimė „Spark“ ir dabar Hadoop. Galite jame paleisti tūkstančius ir tūkstančius „Linux“ mašinų, ir ji atrodė ir jautėsi kaip bet kuri kita klasterė. Tai buvo gana stulbinantis aparatas.
Daugybė organizacijų ėmėsi šių dalykų ir iš tikrųjų aš turėjau duomenų apie tai, kiek šių mašinų naudoja. Dabar maniau, kad 3270 teksto terminalas kurį laiką buvo pakeistas interneto naršyklėmis ir programomis mobiliesiems, ir yra daugybė duomenų, kurie tai palaiko. Manau, kad įžengiame į laikmetį, kai supratome, kad šie pagrindiniai kadrai neišnyksta ir apie juos yra nemažai duomenų. Taigi tai, ką mes darome dabar, yra tiesiog pridėjimas to, ką aš vadinu standartiniais analizės įrankiais. Tai nėra pritaikytos programos. Tai yra dalykai, kuriems reikia vienkartinių. Tai yra dalykas, kurį tiesiogine prasme galite tiesiog nusipirkti supakuotoje dėžutėje ir perjungti į savo kompiuterį bei atlikti analizę.
Kaip jau sakiau anksčiau, iš tikrųjų mainframe veikia jau daugiau nei 60 metų. Kai mes galvojame apie tai, kiek laiko tai yra, tai yra ilgiau, nei iš tikrųjų trunka dauguma gyvų IT profesionalų karjeros. Ir iš tikrųjų net kai kuriuos jų gyvenimus. 2002 m. IBM pardavė 2 300 pagrindinių kompiuterių. 2013 m. Tai išaugo iki 2 700 pagrindinių kompiuterių. Tai yra 2 700 pagrindinių kompiuterių pardavimų per vienerius metus 2013 m. Negavau tikslių duomenų apie 2015 metus, bet įsivaizduoju, kad jis greitai priartės prie 3000 vienetų, parduotų per metus 2015, 2013 m. Ir tikiuosi, kad galėsiu tai patvirtinti.
Išleidus Z13, 13 -oji pagrindinio kompiuterio platformos kartojimas, kuris, manau, jiems kainavo apie 1, 2 arba 1, 3 milijardo dolerių, kad sukurtų nuo nulio, IBM, tai yra, štai mašina atrodo ir jaučiasi kaip ir bet kuri kita klasterė, kuri mes turime šiandien, o vietiniai vadovauja Hadoop ir Spark. Be abejo, jis gali būti prijungtas prie kitų analizės ir didelių duomenų įrankių arba visada gali būti prijungtas prie vieno iš jūsų esamų ar naujų „Hadoop“ grupių. Aš laikausi nuomonės, kad būtina įtraukti pagrindinio kompiuterio platformą į savo didžiųjų duomenų strategiją. Akivaizdu, kad jei tokį turite, turite daug duomenų ir norite išsiaiškinti, kaip jį ten pašalinti. Jie paliekami įvairiais būdais, dvasiškai ir emociškai, rinkti dulkes tiek, kiek reikia verslo pasaulyje, tačiau jie yra tam, kad liktų.
Visų jūsų analizės įrankių sujungimas ir sąsajos su pagrindinio kompiuterio priglobtais duomenimis turėtų būti pagrindinė jūsų įmonės dalis, ypač vyriausybės didžiųjų duomenų planai. Ir visada programinė įranga juos pastebi, gerai pažvelgia į juos ir suvokia, kas yra šiuose dalykuose, ir sujungia protus, kurie pradeda šiek tiek suprasti ir pajusti, kas iš tikrųjų yra po gaubtu. Tada aš perduosiu savo brangiam kolegai dr. Robinui Bloorui ir jis pridės prie šios mažos kelionės. Robinai, atimk jį.
Robinas Blooras: Na, ačiū. Gerai, kad po to, kai Dezas dainavo pagrindinio kompiuterio dainą, pasidairysiu į tai, kas, mano manymu, vyksta atsižvelgiant į senąjį mainframe pasaulį ir naująjį Hadoop pasaulį. Manau, čia yra didelis klausimas, kaip jūs tvarkote visus tuos duomenis? Ne mano nuomonė, kad pagrindiniam kompiuteriui kyla iššūkis dėl jo didžiųjų duomenų galimybių - jo didžiųjų duomenų pajėgumas yra nepaprastai didelis, kaip pabrėžė Dezas, jis yra labai pajėgus. Tiesą sakant, jūs galite įdėti „Hadoop“ grupes. Kur tai ginčijama, yra susijusi su savo ekosistema ir aš apie tai išsamiau išsiaiškinsiu.
Štai keletas pagrindinių kompiuterių padėties. Tai labai brangi, o tai, kas nutiko praeityje, nuo praėjusio amžiaus 7-ojo dešimtmečio vidurio, kai didžiųjų kompiuterių populiarumas ėmė mažėti, buvo linkę prarasti žemąją kainą - žmonių, kurie pirko pigius pagrindinius kompiuterius, ir to nebuvo. Tiems žmonėms tai nėra ypač ekonomiška. Tačiau aukščiau aukštojo kompiuterio vidutinio ir aukšto diapazono jis vis dar iš tikrųjų buvo ir, akivaizdu, iš tikrųjų yra neįtikėtinai nebrangus kompiuteris.
Reikia pasakyti, kad „Linux“ jį išgelbėjo, nes „Linux“, įdiegtame pagrindiniame plane, leido, žinoma, paleisti visas „Linux“ programas. Daugybė „Linux“ programų buvo ten, kol dideli duomenys net nebuvo žodis ar, manau, du žodžiai. Tai iš tikrųjų yra gana puiki privačių debesų platforma. Dėl to jis gali dalyvauti hibridinių debesų diegime. Viena iš problemų yra ta, kad pagrindinio kompiuterio įgūdžių trūksta. Pagrindiniai pagrindiniai įgūdžiai iš tikrųjų sensta ta prasme, kad metai iš metų žmonės išeina iš pramonės į pensiją ir, atsižvelgiant į žmonių skaičių, jie tiesiog keičiami. Taigi tai yra problema. Bet tai vis dar yra nebrangus skaičiavimas.
Sritis, kur, be abejo, buvo iššūkis, yra visas šis Hadoop dalykas. Tai Doug Cutting paveikslėlis su originaliu Hadoop drambliu. „Hadoop“ ekosistema yra - ir liks - dominuojanti didžiųjų duomenų ekosistema. Jis siūlo geresnį mastelį, nei iš tikrųjų gali pasiekti pagrindinis kompiuteris, ir tai yra mažesnės duomenų saugyklos ilgos kainos. Hadoop ekosistema vystosi. Geriausias būdas susimąstyti, kai tam tikra aparatinės įrangos platforma tampa dominuojančia aplinkoje, tada ekosistema tiesiog atgyja. Ir tai atsitiko su IBM pagrindiniu kompiuteriu. Na, vėliau nutiko su „Digital VAX“, atsitiko su „Sun“ serveriais, atsitiko su „Windows“, nutiko su „Linux“.
Ir kas nutiko, kad „Hadoop“, apie kurį aš visada galvoju ar norėčiau galvoti kaip apie tam tikrą paskirstytos duomenų aplinką, ekosistema vystosi neįtikėtinu greičiu. Aš turiu omenyje, kad jūs tiesiog paminėtumėte įvairius įspūdingus atvirojo kodo, „Spark“, „Flink“, „Kafka“, „Presto“, indėlius, o tada pridėtumėte prie kai kurių duomenų bazių, NoSQL ir SQL galimybių, kurios dabar yra „Hadoop“. „Hadoop“ yra pati aktyviausia ekosistema, egzistuojanti ten, neabejotinai verslo kompiuterijoje. Bet jei jūs norite tai traktuoti kaip duomenų bazę, tai tiesiog neturi palyginimo su tuo, ką aš paprastai laikau tikromis duomenų bazėmis, ypač duomenų saugyklos erdvėje. Tai tam tikru mastu paaiškina daugelio didžiųjų NoSQL duomenų bazių, kurios neveikia Hadoop, kaip „CouchDB“ ir pan., Sėkmę.
Kaip duomenų ežeras, jo ekosistema yra žymiai turtingesnė nei bet kurios kitos platformos ir jis nuo to nepasislinks. Jos ekosistema nėra vien atvirojo kodo ekosistema. Dabar yra daugybė programinės įrangos narių, turinčių produktus, kurie iš esmės sukurti „Hadoop“ arba buvo importuoti į „Hadoop“. Jie ką tik sukūrė ekosistemą, kad nėra nieko, kas galėtų konkuruoti su ja dėl savo pločio. Ir tai reiškia, kad iš tikrųjų tai tapo didelių duomenų inovacijų platforma. Bet, mano manymu, tai dar nesubrendusi ir mes galime ilgai diskutuoti apie tai, kas yra ir, tarkime, brandus su „Hadoop“, tačiau aš manau, kad dauguma žmonių, žvelgiančių į šią konkrečią sritį, puikiai supranta, kad „Hadoop“ yra dešimtmečiai už pagrindinio tinklo. atsižvelgiant į operatyvines galimybes.
Kintantis duomenų ežeras. Duomenų ežeras yra bet kokio apibrėžimo platforma, ir jei manote, kad įmonių skaičiavimuose yra duomenų sluoksnis, tai labai lengva pagalvoti apie fiksuotas duomenų bazes ir duomenų ežerą, kuris sudaro duomenų sluoksnį. Duomenų ežero taikymas yra daug ir įvairių. Turiu schemą, kurioje pateikiami įvairūs duomenų klaidinimo dalykai, kuriuos reikia atlikti, jei kaip sustojimo vietą naudojate „Hadoop“ arba kaip „sustojimo vietą“ „Hadoop“ ir „Spark“. Ir jūs turite visą reikalą - duomenų kilmę, duomenų valymą, metaduomenų valdymą, metaduomenų atradimą - jis gali būti naudojamas pačiam ETL, tačiau dažnai reikalaujama, kad ETL pateiktų duomenis. Pagrindinis duomenų valdymas, duomenų verslo apibrėžimai, paslaugų valdymas kas vyksta „Hadoop“, gyvenimo ciklo duomenų valdymas ir „ETL“ iš „Hadoop“, taip pat turite tiesioginių analizės programų, kurias galite naudoti „Hadoop“.
Štai kodėl jis tampa labai galingas ir ten, kur jis sėkmingai įgyvendinamas ir įgyvendinamas, paprastai jame yra bent jau tokių programų kolekcija. Ir dauguma tų programų, ypač tų, apie kurias aš buvau supažindinta, jų šiuo metu tiesiog nėra pagrindiniame korpuse. Bet jūs galėtumėte juos paleisti mainframe, Hadoop klasteryje, kuris veikė mainframe skaidinyje.
Duomenų ežeras, mano manymu, tampa natūralia sustojimo vieta greitai duomenų bazių analizei ir BI. Tai tampa vieta, kur jūs perimate duomenis, nesvarbu, ar tai yra įmonės duomenys, ar išorinius duomenis, suklaidinkite juos, kol, tarkime, pakankamai švarūs naudoti ir gerai sukonstruoti naudoti, o tada perduosite. Ir visa tai dar tik pradinėje stadijoje.
Pagrindinė programa / Hadoop sambūvio idėja, mano manymu, pirmiausia yra ta, kad didelės įmonės vargu ar atsisako mainframe. Tiesą sakant, pastaruoju metu matytos nuorodos rodo, kad didėja investicijos į pagrindinį kompiuterį. Tačiau jie taip pat neignoruos Hadoop ekosistemos. Matau, kad 60 proc. Didžiųjų įmonių naudojasi „Hadoop“, net jei daugelis iš jų tik prototipuoja ir eksperimentuoja.
Tada nesiginčijama: „Kaip padaryti, kad šie du dalykai egzistuotų kartu?“, Nes jiems reikės dalintis duomenimis. Duomenys, kurie yra suvesti į duomenų ežerą, jie turi būti perduoti į kompiuterį. Pagrindiniame duomenų bazėje esančius duomenis gali reikėti perkelti į duomenų ežerą arba per duomenų ežerą, kad juos būtų galima sujungti su kitais duomenimis. Ir tai įvyks. Tai reiškia, kad reikia greito duomenų perdavimo / ETL galimybių. Vargu, ar darbo krūviai bus dinamiškai dalijami, tarkime, pagrindinio kompiuterio aplinkoje arba su kuo nors Hadoop aplinkoje. Tai bus bendrinami duomenys. Ir didžioji dalis duomenų neišvengiamai bus „Hadoop“ vien dėl to, kad tai yra pati pigiausia platforma. Ir analitinis apdorojimas nuo galo iki galo taip pat bus ten.
Apibendrinant, galiausiai turime galvoti apie įmonių duomenų sluoksnį, kuris daugeliui kompanijų apims pagrindinį pagrindą. Ir tą duomenų sluoksnį reikia aktyviai valdyti. Priešingu atveju abu nebus gerai sugyventi. Aš galiu perduoti kamuolį tau. Eric.
Erikas Kavanaghas: Vėlgi, „Tendü“ aš ką tik tapau jums laidos vedėju, taigi atimkite jį.
Tendü Yogurtçu: Ačiū, Eric. Ačiū kad priėmei mane. Sveiki visi. Aš kalbėsiu apie „Syncsort“ patirtį su klientais, susijusius su tuo, kaip mes matome duomenis kaip organizacijos turtą, nuo pagrindinio tinklo iki didelių duomenų analizės platformose. Tikiuosi, kad sesijos pabaigoje taip pat turėsime laiko klausti klausytojų, nes tai tikrai yra vertingiausia šių internetinių transliacijų dalis.
Tiesiog žmonėms, kurie nežino, ką daro „Syncsort“, „Syncsort“ yra programinės įrangos įmonė. Mes iš tikrųjų esame daugiau nei 40 metų. Pradėta nuo didžiųjų kompiuterių pusės, o mūsų produktai apima pagrindinį kompiuterį nuo „Unix“ iki didelių duomenų platformų, įskaitant „Hadoop“, „Spark“, „Splunk“, tiek patalpoje, tiek debesyje. Mūsų dėmesys visada buvo skiriamas duomenų produktams, duomenų apdorojimui ir duomenų integravimo produktams.
Mūsų strategija, susijusi su dideliais duomenimis ir „Hadoop“, tikrai turėjo tapti ekosistemos dalimi nuo pirmosios dienos. Būdami pardavėjų, kurie tikrai sutelkė dėmesį į duomenų apdorojimą labai lengvais varikliais, savininkai, mes manėme, kad yra didelė galimybė dalyvauti „Hadoop“ tapant duomenų apdorojimo platforma ir būti šios naujos kartos duomenų saugyklos architektūros dalimi. Mes nuo 2011 m. Bendradarbiaujame su atvirojo kodo „Apache“ projektais, pradedant nuo „MapReduce“. Pateko į „Hadoop 2“ versijos dešimtuką ir iš tikrųjų dalyvavo keliuose projektuose, įskaitant „Spark“ paketus, kai kurie iš mūsų jungčių yra paskelbti „Spark“ paketuose.
Mes pasitelkiame labai lengvą duomenų apdorojimo variklį, kurio metaduomenys yra visiškai vienodo dydžio failai ir labai gerai tinka tokioms paskirstytų failų sistemoms kaip „Hadoop Distributed File System“. Ir mes pasitelkiame savo paveldą mainframe, savo patirtį su algoritmais, kai pateikiame savo didžiųjų duomenų produktus. Ir mes labai artimai bendradarbiaujame su pagrindiniais pardavėjais, pagrindiniais žaidėjais, įskaitant „Hortonworks“, „Cloudera“, „MapR“, „Splunk“. „Hortonworks“ neseniai paskelbė, kad perparduos mūsų gaminį, skirtą ETL įlaipinti su „Hadoop“. Su „Dell“ ir „Cloudera“ palaikome labai glaudžius ryšius, kurie taip pat perparduoda mūsų ETL produktą kaip jų didžiųjų duomenų prietaiso dalį. O iš tikrųjų su „Splunk“ mes „Splunk“ prietaisų skydelyje skelbiame didžiųjų kompiuterių telemetrijos ir saugos duomenis. Mes glaudžiai bendradarbiaujame.
Kas yra kiekvieno C lygio vadovo galvoje? Tai tikrai: „Kaip aš galiu naudotis savo duomenų šaltiniu?“ Visi kalba apie didelius duomenis. Visi kalba apie „Hadoop“, „Spark“ - kitą kompiuterio platformą, kuri man gali padėti sukurti verslo judrumą ir atverti naujas transformacines programas. Naujos galimybės patekti į rinką. Kiekvienas vadovas mąsto: „Kokia mano duomenų strategija, kokia mano duomenų iniciatyva ir kaip įsitikinti, kad neatsilieku nuo konkurencijos ir vis dar esu šioje rinkoje per ateinančius trejus metus?“ tai matysime kalbėdami su klientais, kalbėdami su pasauline klientų baze, kuri, kaip jūs galite įsivaizduoti, yra gana didelė, nes mes jau kurį laiką gyvename.
Kalbėdamiesi su visomis šiomis organizacijomis, tai matome ir technologijų kamino metu, kai įvyko sutrikimas, kuris įvyko su „Hadoop“. Tai tikrai siekiant patenkinti šį duomenų kaip turto poreikį. Pasinaudokite visais organizacijos turimais duomenų ištekliais. Matėme, kad įmonės duomenų saugyklos architektūra vystosi taip, kad dabar „Hadoop“ yra naujas šiuolaikinės duomenų architektūros pagrindas. Ir dauguma mūsų klientų, nesvarbu, ar tai finansinės paslaugos, ar tai draudimas, ir mažmeninės prekybos tel., Iniciatyvos dažniausiai yra tai, kad mes pastebime, kad „Hadoop“ yra paslauga, arba duomenys, kaip paslauga. Kadangi visi stengiasi, kad duomenų ištekliai būtų prieinami tiek išoriniams, tiek vidiniams klientams. Kai kuriose organizacijose matome tokias iniciatyvas kaip beveik duomenų rinka jų klientams.
Vienas iš pirmųjų žingsnių tai pasiekti yra įmonės duomenų centro sukūrimas. Kartais žmonės tai vadins duomenų ežeru. Sukurti šį įmonės duomenų centrą iš tikrųjų nėra taip paprasta, kaip atrodo, nes tam tikrai reikia pasiekti ir surinkti praktiškai bet kokius įmonės duomenis. Dabar duomenys yra iš visų naujų šaltinių, tokių kaip mobilieji jutikliai, taip pat iš senų duomenų bazių, ir jie yra paketinio režimo ir srautinio perdavimo režimu. Duomenų integracija visada buvo iššūkis, tačiau, atsižvelgiant į duomenų šaltinių skaičių ir įvairovę bei skirtingus pristatymo stilius, nesvarbu, ar tai paketinė, ar srautinė realiuoju laiku, dabar tai dar sudėtingesnė, palyginti su prieš penkerius metus, prieš dešimt metų. Mes kartais vadiname tai: „Tai jau nebe tavo tėvo ETL“.
Taigi mes kalbame apie skirtingus duomenų išteklius. Kadangi įmonės bando įprasminti naujus duomenis, duomenis, kuriuos jos renka iš mobiliųjų prietaisų, ar tai būtų automobilių gamintojo jutikliai, ar tai mobiliųjų žaidimų įmonės vartotojo duomenys, jiems dažnai reikia nurodyti svarbiausius duomenų išteklius pvz., informacija apie klientą. Šie svarbiausi duomenų šaltiniai dažnai būna pagrindiniame pagrindiniame tinkle. Koreliaciniai mainframe duomenys su šiais naujais šaltiniais, surinkti debesyje, surinkti per mobilųjį telefoną, surinkti Japonijos automobilių kompanijos gamybos linijoje ar daiktų internete, turi įprasminti šiuos naujus duomenis, nurodant jų senuosius duomenų rinkinius. Ir tie senieji duomenų rinkiniai dažnai būna pagrindiniame korpuse.
Ir jei šios įmonės nesugeba to padaryti, nesugeba įsitraukti į pagrindinio kompiuterio duomenis, tada praleista galimybė. Tuomet duomenys kaip paslauga arba visų įmonės duomenų panaudojimas iš tikrųjų nėra svarbiausias organizacijos turtas. Čia taip pat yra telemetrijos ir saugos duomenų dalis, nes beveik visi operacijų duomenys gyvena pagrindiniame korpuse.
Įsivaizduokite, jūs einate į bankomatą, manau, vienas iš dalyvių čia dalyviams nusiuntė pranešimą, kad apsaugotų bankų sistemą, kai jūs perbraukiate savo kortelę, kad operacijų duomenys visame pasaulyje yra pagrindiniame plane. Saugoti ir rinkti pagrindinių ir telemetrijos duomenų iš pagrindinių kompiuterių duomenis ir padaryti juos prieinamus per „Splunk“ prietaisų skydelius ar kitus, „Spark“, SQL, dabar tampa svarbiau nei bet kada anksčiau, nes duomenų kiekis yra didelis ir jų įvairovė.
Įgūdžių rinkiniai yra vienas didžiausių iššūkių. Kadangi, viena vertus, jūs turite greitai besikeičiančią didelių duomenų saugyklą, nežinote, kuris projektas išliks, kuris projektas neišliks, ar turėčiau samdyti „Hive“ ar „Pig“ kūrėjus? Ar turėčiau investuoti į „MapReduce“ ar „Spark“? Arba kitas dalykas, „Flink“, kažkas pasakė. Ar turėčiau investuoti į vieną iš šių kompiuterinių platformų? Viena vertus, suspėti su greitai besikeičiančia ekosistema yra iššūkis, kita vertus, jūs turite šiuos senus duomenų šaltinius. Nauji įgūdžių rinkiniai iš tikrųjų nesutampa ir gali kilti problemų, nes šie ištekliai iš tikrųjų pasitraukia. Žmonių, kurie supranta tuos senus duomenų rinkinius ir suplanuojančius kylančius technologijų krūvius, įgūdžių rinkinys yra didelis.
Antras iššūkis yra valdymas. Kai iš tikrųjų naudojatės visais įmonės duomenimis įvairiose platformose, turime klientų, kurie išreiškė susirūpinimą, kad: „Aš nenoriu, kad mano duomenys būtų rodomi. Nenoriu, kad mano duomenys būtų kopijuojami keliose vietose, nes noriu kiek įmanoma vengti kelių kopijų. Aš noriu turėti prieigą prie galo, nenukreipdamas jos į vidurį. “Šių duomenų tvarkymas tampa iššūkiu. Kitas dalykas yra tai, kad jei jūs prieinate prie duomenų, kuriuose trūksta kliūčių, jei surenkate didžiąją dalį savo duomenų debesyje ir prieinate prie nuorodų apie senuosius duomenis, tinklo pralaidumas tampa problema, klasterio platforma. Yra daug iššūkių, susijusių su šios didelių duomenų iniciatyvos ir pažangių analizės platformų naudojimu bei visų įmonės duomenų panaudojimu.
Tai, ką siūlo „Syncsort“, mes vadinami tiesiog paprasčiausiais ne todėl, kad esame tiesiog geriausi, bet mūsų klientai iš tikrųjų nurodo mus kaip geriausius, norėdami pasiekti ir integruoti pagrindinio kompiuterio duomenis. Mes palaikome visus duomenų formatus iš pagrindinio kompiuterio ir padarome juos prieinamus didžiųjų duomenų analizei. Nesvarbu, ar tai „Hadoop“, ar „Spark“, ar kita kompiuterio platforma. Todėl, kad mūsų produktai tikrai izoliuoja kompiuterio platformos sudėtingumą. Jūs, kaip kūrėjas, potencialiai kuriate nešiojamąjį kompiuterį, daugiausiai dėmesio skirdami duomenų srautui ir duomenims ruošti, žingsniams, kad šie duomenys būtų sukurti analizei, kitam etapui ir imtumėtės tos pačios programos „MapReduce“ programoje arba imtumėtės to. ta pati programa „Spark“.
Mes padėjome klientams tai padaryti, kai tapo prieinamas „YARN“ ir jie turėjo perkelti savo programas iš „MapReduce“ 1 versijos į „YARN“. Mes jiems padedame tą patį padaryti su „Apache Spark“. Mūsų produktas, naujoji versija 9, taip pat veikia su „Spark“ ir pristatomas kartu su dinaminiu optimizavimu, kuris izoliuos šias programas būsimoms kompiuterio sistemoms.
Taigi turime prieigą prie pagrindinių kompiuterių duomenų, nesvarbu, ar tai VSAM failai, ar tai yra „DB2“, ar telemetriniai duomenys, tokie kaip SMF įrašai, „Log4j“ ar „syslogs“, kuriuos reikia vizualizuoti naudojant „Splunk“ prietaisų skydelius. Tai darydama, nes organizacija gali panaudoti esamus duomenų inžinierius ar ETL įgūdžių rinkinius, kūrimo laikas žymiai sutrumpėja. Tiesą sakant, naudojant „Dell“ ir „Cloudera“, buvo remiamas nepriklausomas etalonas, kuris buvo orientuotas į kūrimo laiką, kuris užtrunka, jei darote kodavimą rankomis ar naudojate kitas priemones, pvz., „Syncsort“, ir tai buvo maždaug 60, 70 procentų mažesnis kūrimo laikas. . Įgūdžių užpildymas nustato atotrūkį tarp grupių, tarp tų duomenų failų pagrindų ir tų duomenų failų pagrindų žmonių atžvilgiu.
Paprastai didžiųjų duomenų komanda, duomenų perdavimo komanda arba komanda, kuriai pavesta sukurti šiuos duomenis kaip paslaugų architektūrą, nebūtinai kalba su pagrindinio kompiuterio komanda. Jie nori sumažinti šią sąveiką beveik daugelyje organizacijų. Užpildę tą spragą, mes pažengėme į priekį. O svarbiausia dalis yra viso proceso užtikrinimas. Nes įmonėje, kur susiduriate su tokio pobūdžio neskelbtiniais duomenimis, yra keliama daugybė reikalavimų.
Labai reguliuojamose pramonės šakose, tokiose kaip draudimas ir bankininkystė, mūsų klientai klausia: „Jūs siūlote prieigą prie pagrindinių kompiuterių duomenų, ir tai puiku. Ar galite pasiūlyti man padaryti, kad šis EBCDIC užkoduotas įrašo formatas būtų laikomas originaliu formatu, kad galėčiau patenkinti mano audito reikalavimus? “Taigi mes verčiame„ Hadoop “ir„ Apache Spark “suprasti pagrindinio kompiuterio duomenis. Galite saugoti duomenis originaliu įrašo formatu, atlikti tvarkymo ir lygmenų platintojo kompiuterinę platformą. Jei jums reikia grąžinti duomenis, galite parodyti, kad įrašas nepakeistas ir įrašo formatas nepakeistas, galite laikytis norminių reikalavimų .
Daugelis organizacijų, kurdamos duomenų centrą ar duomenų ežerą, taip pat bando tai padaryti vienu paspaudimu, kad galėtų susieti metaduomenis iš šimtų „Oracle“ duomenų bazės schemų iki „Hive“ lentelių ar ORC ar „Parquet“ failų. tampa būtina. Siunčiame įrankius ir pateikiame įrankius, leidžiančius tai pasiekti vieno žingsnio prieigą prie duomenų, automatiškai sukuriančias užduotis ar duomenų judėjimą, ir automatiškai generuojančias užduotis, kad būtų galima sudaryti duomenis.
Mes kalbėjome apie jungiamumo dalį, atitiktį, valdymą ir duomenų tvarkymą. Mūsų produktai yra tiek prieinamoje vietoje, tiek pilve, todėl tai padaryti labai paprasta, nes įmonėms nereikia galvoti apie tai, kas nutiks per ateinančius ar dvejus metus, jei nuspręsiu visiškai atsisakyti viešojo debesies ar hibridinio. aplinka, nes kai kurie klasteriai gali veikti patalpoje arba debesyje. Mūsų gaminių galima įsigyti tiek „Amazon Marketplace“, tiek „EC2“, „Elastic MapReduce“, tiek „Docker“ talpykloje.
Tiesiog tam, kad apsiribotume, todėl turime pakankamai laiko klausimų ir atsakymų klausimui, bet tai tikrai yra prieiga prie duomenų valdymo, integravimas ir laikymasis, tačiau visa tai padaryti paprasčiau. Padarius šį paprastesnį, „kurk ir naudok bet kur“ realiąja prasme dėl mūsų atvirojo kodo, mūsų produktas veikia „Hadoop“ duomenų sraute ir „Spark“, izoliuodamas organizacijas nuo greitai besikeičiančios ekosistemos. Ir vieno duomenų perdavimo vamzdyno, vienos sąsajos tiek paketiniam tiek perdavimui.
Tai taip pat padeda organizacijoms kartais įvertinti šias sistemas, nes galbūt norėsite iš tikrųjų kurti programas ir tiesiog paleisti „MapReduce“, palyginti su „Spark“, ir patys įsitikinti, taip, „Spark“ turi šį pažadą ir suteikia visas pažymas apie iteracinius algoritmus, kad būtų galima geriau mokytis mašinų. ir numatomosios analizės programos veikia su „Spark“. Ar šioje kompiuterio sistemoje taip pat galiu atlikti srautinį ir paketinį darbo krūvį? Naudodami mūsų produktus galite išbandyti skirtingas kompiuterines platformas. Ir dinamiškas optimizavimas, nepriklausomai nuo to, ar naudojate autonominį serverį, nešiojamąjį kompiuterį, „Google Cloud“, palyginti su „Apache Spark“, yra tikrai didelis pasiūlymas klientams. Ir tai tikrai paskatino jų patirti iššūkiai.
Aš tik aptarsiu vieną iš atvejų analizės. Tai gyvybės draudimo bendrovė „Guardian“. „Guardian“ iniciatyva iš tikrųjų buvo sutelkti jų duomenų išteklius ir padaryti juos prieinamus savo klientams, sutrumpinti duomenų parengimo laiką. Jie sakė, kad visi kalba apie duomenų paruošimą, užimantį 80 procentų viso duomenų tvarkymo proceso, ir jie teigė, kad iš tikrųjų tai užtrunka. 75–80 procentų - jie norėjo sutrumpinti duomenų paruošimo, pertvarkymo laiką, laiką iki analizės projektų pateikimo į rinką. Sukurkite tą judrumą, nes jie prideda naujų duomenų šaltinių. Suteikite visiems jų klientams prieigą prie centralizuotos prieigos prie duomenų.
Jų sprendimas, įskaitant „Syncsort“ produktus, yra tinkamas dabar. Jie turi „Amazon Marketplace“ panašią duomenų rinką, palaikomą duomenų ežero, kuris iš esmės yra „Hadoop“, ir „NoSQL“ duomenų bazę. Ir jie naudoja mūsų produktus, kad į duomenų ežerą būtų perkeltas visas duomenų išteklius, įskaitant „DB2“ mainframe, įskaitant VSAM failus mainframe, duomenų bazių senus duomenų šaltinius, taip pat naujus duomenų šaltinius. Dėl to jie centralizavo pakartotinai naudojamus duomenų išteklius, kurie yra ieškomi, prieinami ir prieinami jų klientams. Ir jie tikrai sugeba pridėti naujus duomenų šaltinius ir aptarnauti savo klientus daug greičiau ir efektyviau nei anksčiau. Ir analitinės iniciatyvos dar labiau progresuoja ir prognozuojamojoje srityje. Taigi aš padarysiu pertrauką ir tikiuosi, kad tai buvo naudinga. Jei turite kokių nors klausimų, susijusių su manimi, prašome kreiptis į jus.
Ericas Kavanaghas: „ Tikrai“, ir „Tendü“, aš tiesiog įmesiu. Gavau auditorijos nario komentarą, kuriame sakoma: „Man patinka šis„ dizainas vieną kartą, panaudokite bet kur “.“ Ar galite pasidomėti, kaip tai tiesa? Aš turiu galvoje, ką jūs padarėte, kad įgalintumėte tokį judrumą ir ar yra kokių nors mokesčių? Pavyzdžiui, kai kalbame apie virtualizavimą, visada yra šiek tiek apmokestinamas našumas. Kai kurie žmonės sako, kad du procentai, penki procentai - 10 procentų. Ką jūs padarėte, kad dizainas būtų įgalintas vieną kartą, jį galima panaudoti bet kur - kaip jūs tai darote ir ar yra kokių nors su tuo susijusių mokesčių?
Tendü Yogurtçu: Žinoma, ačiū. Ne, nes skirtingai nuo kai kurių kitų pardavėjų, mes tikrai negeneruojame „Avilio“ ar „Kiaulės“ ar kažkokio kito kodo, kuris nėra įprastas mūsų varikliams. Štai kur mūsų atvirojo kodo indėlis suvaidino didžiulį vaidmenį, nes mes labai glaudžiai bendradarbiavome su „Hadoop“ pardavėjais, „Cloudera“, „Hortonworks“ ir „MapR“, o dėl mūsų atvirojo kodo indėlio mūsų variklis iš tikrųjų veikia natūraliai kaip srauto dalis., kaip „Hadoop“ srauto dalis, kaip „Kibirkšties“ dalis.
Tai reiškia, kad turime dinamišką optimizavimą. Tai atsitiko dėl to, kad mūsų klientai susidūrė su kompiuterių sistemomis. Kai jie pradėjo gaminti kai kurias programas, jie grįžo ir sakė: „Aš tik stabilizavau savo„ Hadoop “klasterį, stabilizavau„ MapReduce YARN “2 versijoje, „ MapReduce 2 “versijoje ir žmonės kalba, kad„ MapReduce “mirė, „ Spark “yra. kitas dalykas, ir kai kurie žmonės sako, kad kitas dalykas bus „Flink“, kaip aš su tuo susitvarkysiu? “
Ir tie iššūkiai mums iš tikrųjų tapo tokie akivaizdūs, mes investavome į tai, kad ši dinamiška optimizacija būtų vadinama protingu vykdymu. Vykdydami užduotį, kai pateikiamas šis duomenų srautas, atsižvelgiant į klasterį, nesvarbu, ar tai „Spark“, ar tai „MapReduce“, ar atskiras „Linux“ serveris, nusprendžiame, kaip paleisti šią užduotį, savo variklyje, kaip dalį šios programos. „Hadoop“ arba „Spark“ duomenų srautas. Nebėra pridėtinės vertės, nes viskas daroma per šį dinamišką optimizavimą, kurį turime, ir viskas taip pat padaryta, nes mūsų variklis yra taip natūraliai integruotas dėl mūsų atvirojo kodo indėlių. Ar tai atsakymas į tavo klausimą?
Erikas Kavanaghas: Taip, tai gerai. Ir aš noriu ten iškelti dar vieną klausimą, o paskui Dezai, gal mes taip pat įtrauksime tave ir Robiną. Ką tik gavau linksmą vieno iš mūsų dalyvių komentarą. Aš jį perskaitysiu, nes jis iš tikrųjų yra gana nuobodus. Jis rašo: „Atrodo, kad daiktų istorijoje yra karšta“ - suprask? Kaip ir internetas -, yra tai, kad kuo daugiau bandai „supaprastinti“ tai, kas iš tikrųjų sudėtinga, dažniausiai tai nėra viskas, kas paprasčiau atrodo daryti, tiekiama daugiau kabančios virvės. Pagalvokite apie duomenų bazės užklausą, sprogimą, daugybę gijų ir pan. “Ar galite pakomentuoti šį paradoksą, kurį jis nurodo? Paprastumas ir sudėtingumas, o kas iš tikrųjų vyksta po dangčiais?
Tendü Yogurtçu: Tikrai. Manau, kad tai labai teisinga mintis. Kai supaprastinate dalykus ir optimizuojate veiksmus tam tikru būdu po dangčiais, kažkas turi atsižvelgti į tai, kas turi atsitikti, taip, ar ne? Jei ką nors paralyžiuojate arba nusprendžiate, kaip atlikti tam tikrą užduotį, atsižvelgiant į kompiuterio karkasą, akivaizdu, kad ten yra tam tikra darbo dalis, kuri yra stumiama, nesvarbu, ar tai vartotojas, ar meniu kodavimas, ar variklio optimizavimas. Dalis to, supaprastinus vartotojo patirtį, suteikia didžiulį pranašumą, nes galima panaudoti įmonėje egzistuojančius įgūdžių rinkinius.
Ir jūs galite sušvelninti tą paradoksą, sušvelninti šį iššūkį: „Taip, bet aš nekontroliuoju visko, kas vyksta po dangčiu, po varikliu po to variklio dangčiu“, eksponuodami dalykus labiau patyrusiems vartotojams, jei jie nori turėti tokią kontrolę. Taip pat investuodami į kai kuriuos dalykus, kuriuos galima naudoti. Galimybė siūlyti daugiau operacinių metaduomenų, operatyvesnių duomenų, kaip pavyzdyje, kurį pateikė šis dalyvis, SQL užklausai, taip pat esant varikliui. Tikiuosi, kad atsakymai.
Erikas Kavanaghas: Taip, tai skamba gerai. Dez, nuimk.
Dezas Blanchfieldas: Aš tikrai noriu šiek tiek daugiau sužinoti apie jūsų pėdsaką atvirojo kodo įnašuose ir kelionę, kurią pasirinkote iš savo tradicinės, ilgametės patirties mainframe ir patentuotame pasaulyje, o tada pereikite į prisidėjimas prie atviro kodo ir kaip tai vyko. Kitas dalykas, kurį labai norėčiau suprasti, yra požiūris, kurį matote, kad ne tik IT skyriai, bet ir įmonės dabar atsižvelgia į duomenų centrus ar duomenų ežerus, kaip žmonės sako dabar, ir ar jie mato šią tendenciją. tik vieną, konsoliduotą duomenų ežerą, ar matome paskirstytus duomenų ežerus, ir žmonės naudoja įrankius juos sudėti?
Tendü Yogurtçu: Tikrai. Pirmajai tai buvo labai įdomi kelionė, kaip savininkui priklausančiai programinės įrangos įmonei, vienai pirmųjų po IBM. Tačiau vėl viskas prasidėjo nuo to, kad mūsų evangelistų klientai žiūrėjo į Hadoop. Turėjome duomenų kompanijų, tokių kaip „ComScore“, jos buvo vienos iš pirmųjų, kurios priėmė „Hadoop“, nes jos rinko skaitmeninius duomenis visame pasaulyje ir negalėjo išsaugoti 90 dienų duomenų, nebent į savo telefoną būtų investavusios dešimties milijonų dolerių vertės duomenų saugyklos dėžutę. aplinka. Jie pradėjo žiūrėti į Hadoopą. Su tuo mes taip pat pradėjome žiūrėti į Hadoop.
Ir kai mes priėmėme sprendimą ir pripažinome, kad „Hadoop“ tikrai bus ateities duomenų platforma, mes taip pat supratome, kad mes negalėsime žaisti šiame, sėkmingame žaidime, nebent mes buvo ekosistemos dalis. Mes labai glaudžiai bendradarbiavome su „Hadoop“ pardavėjais, su „Cloudera“, „Hortonworks“, „MapR“ ir kt. Pradėjome nuoširdžiai su jais kalbėti, nes partnerystė tampa labai svarbi norint patvirtinti pardavėjo teikiamą vertę, taip pat įsitikiname, kad galime kartu eiti į įmonę ir pasiūlyti ką nors prasmingesnio. Tai pareikalavo daug ryšių kūrimo, nes mes nebuvome žinomi apie „Apache“ atvirojo kodo projektus, tačiau, turiu pasakyti, mes labai palaikėme šiuos „Hadoop“ pardavėjus.
Pradėjome dirbti kartu ir žiūrėjome į centrą, kaip galime sukurti vertę net neturėdami savo savininko programinės įrangos erdvėje. Tai buvo svarbu. Tai reiškia ne tik tam, kad įdėtų tam tikras API, kuriomis gali naudotis jūsų produktas, bet ir reikia pasakyti, kad į tai investuosiu, nes manau, kad „Hadoop“ taps ateities platforma, todėl investuodami į šaltinius, kuriuos norėjome sukurti įsitikinkite, kad ji subręsta ir tampa įmonei pasirengusi. Mes iš tikrųjų galime įgalinti kai kuriuos naudojimo atvejus, kurių nebuvo iki mūsų atsiliepimų. Tai bus naudinga visai ekosistemai, ir mes galime labai atidžiai plėtoti tą partnerystę.
Tai užtruko gana daug laiko. Pradėjome savo indėlį 2011 m., O 2013 m., Sausio 21 d. - Prisimenu datą, nes tą dieną buvo padarytas didžiausias mūsų indėlis, o tai reiškė, kad nuo tada galime savo gaminius įsigyti paprastai - tų santykių plėtojimas užtruko nemažai laiko., parodykite vertę, partneriai tampa dizaino partneriais su tiekėjais ir atvirojo kodo bendruomenės partneriais. Bet tai buvo labai smagu. Mums, kaip kompanijai, buvo labai malonu būti tos ekosistemos dalimi ir užmegzti puikią partnerystę.
Antras klausimas apie duomenų centrą / duomenų ežerą, aš manau, kad kai dažniausiai šiuos duomenis matome kaip paslaugų įgyvendinimą, taip, tai gali būti klasteriai, fiziškai pavieniai ar keli klasteriai, tačiau tai labiau konceptualus nei tapimas ta viena vieta visiems duomenims. Kadangi kai kuriose organizacijose matome didelius grupių diegimus, tačiau jos taip pat turi grupes, pavyzdžiui, viešajame debesyje, nes dalis duomenų, surinktų iš internetinių skyrių, iš tikrųjų yra laikomi debesyje. Svarbu tampa galimybė turėti vieną duomenų srautą, kurį naudodamiesi galite naudoti abu šiuos elementus, ir naudoti juos kaip vieną duomenų centrą, vieną duomenų ežerą. Nebūtinai tik fizinė vieta, bet aš manau, kad turint tą duomenų centrą ir duomenų ežerą per grupes, geografines vietoves ir galbūt prielaidas bei debesis bus labai kritiška. Ypač juda į priekį. Šiais metais pradėjome matyti vis daugiau debesų diegimų. Tai nuostabu. Šių metų pirmąjį pusmetį mes matėme daugybę debesų diegimų.
Erikas Kavanaghas: Gerai, šaunu. O Robinai, ar turite klausimų? Aš žinau, kad mums liko tik kelios minutės.
Robin Bloor: Gerai, gerai, aš galiu jai užduoti klausimą. Pirmas dalykas, kuris man kilo, yra tas, kad apie „Kafką“ buvo daug jaudulio ir mane sudomino jūsų nuomonė apie „Kafką“ ir tai, kaip jūs integruojatės į tai, kaip žmonės naudojasi „Kafka“?
Tendü Yogurtçu: Tikrai. Taip, „Kafka“ tampa gana populiari. Tarp savo klientų mes matome, kad tai yra tam tikras duomenų perdavimo lygmuo ir kad duomenys yra tik magistralė. Pvz., Vienas iš mūsų klientų iš tikrųjų naudojo daug duomenų, kurie buvo įtraukti į šią „Kafką“ tarp daugelio, tokių kaip tūkstančiai internetinių vartotojų, ir galėjo tai klasifikuoti bei perduoti.
Vėlgi, „Kafka“ yra duomenų magistralė skirtingiems šių duomenų vartotojams. Suklasifikuokite keletą pažengusiųjų ir ne tokių pažengusių vartotojų ir darykite ką nors kita judėdami į priekį tame duomenų sraute. Iš esmės tai, kaip mes integruojamės su „Kafka“, mūsų produktas „DMX-h“ tampa patikimu „Kafka“ vartotoju, labai efektyviu ir patikimu vartotoju. Jis gali nuskaityti duomenis ir tai niekuo nesiskiria nuo duomenų, skaitytų iš bet kurio kito duomenų šaltinio, mums. Mes suteikiame vartotojams galimybę valdyti langą atsižvelgiant į laiko poreikį, kurį jie turi, arba į pranešimų, kuriuos jie gali suvartoti iš „Kafka“ autobusų, skaičių. Tada mes taip pat galime praturtinti tuos duomenis, nes jie patenka į mūsų gaminį ir stumiami atgal į „Kafką“. Mes tai išbandėme. Mes tai palyginome su kliento svetaine. Taip pat sertifikuota „Confluent“. Mes glaudžiai bendradarbiaujame su Confluent vaikinais. Tai labai našūs ir lengvai naudojami. Vėlgi, keičiasi API, tačiau nereikia jaudintis, nes produktas iš tikrųjų traktuojamas kaip tik dar vienas duomenų šaltinis, srautinių duomenų šaltinis. Iš tikrųjų yra gana smagu dirbti su mūsų produktu ir „Kafka“.
Robinas Blooras: Gerai, kad turiu dar vieną klausimą, kuris yra tiesiog bendras verslo klausimas, tačiau aš ilgą laiką žinojau „Syncsort“ ir visada turėjote reputaciją ir pristatėte nepaprastai greitą programinę įrangą ETL ir didžiųjų kompiuterių pasauliui. Ar taip, kad didžioji jūsų verslo dalis dabar yra perkelta į „Hadoop“? Ar taip yra, kad jūs tokiu ar kitokiu būdu gana dramatiškai išplėtėte savo verslą iš didžiųjų kompiuterių pasaulio?
„Tendü Yogurtçu“: Mūsų pagrindinių gaminių produktai vis dar naudoja 50 procentų pagrindinių kompiuterių visame pasaulyje. Taigi, be to, ką darome dideliais duomenimis ir „Hadoop“ pabaiga, turime labai stiprią mainframe produktų liniją. Mes vis dar vykdome daugumą IT supaprastinimo ar optimizavimo projektų, nes yra vienas galas, kuriuo norima turėti galimybę panaudoti pagrindinio kompiuterio duomenis didžiųjų duomenų „Multex“ platformose ir panaudoti visus įmonės duomenis, tačiau yra ir labai kritinių operacijų darbo krūvių. kuri vis dar veikia pagrindiniame pagrindiniame keitiklyje, ir mes siūlome tiems klientams būdų, kaip iš tikrųjų padaryti tas programas efektyvesnes, paleisti „zIIP“ variklyje, kad jos nenaudotų tiek daug apdorojimo ciklų ir MIPS, kad jos taptų rentabilios.
Mes ir toliau investuojame į didžiųjų kompiuterių produktus ir iš tikrųjų žaidžiame šioje erdvėje, kurioje žmonės pereina nuo didžiųjų kompiuterių didžiųjų geležies prie didelių duomenų ir aptinka produktų liniją visose tose platformose. Taigi mes nebūtinai perkeliame visą verslą į vieną pusę, ir toliau sėkmingai dirbame abiejose pusėse. Įsigijimai yra didelis dėmesys ir mums. Tobulėjant duomenų valdymo ir duomenų apdorojimo erdvei didelėms duomenų platformoms, mes taip pat esame įsipareigoję atlikti daugybę papildomų įsigijimų.
Robinas Blooras: Aš manau, kad negaliu jūsų paklausti, kokie jie yra, nes jums nebus leista man pasakyti. Man įdomu, ar jūs matėte daug „Hadoop“ ar „Spark“ diegimų iš tikrųjų pagrindiniame pagrindiniame įrenginyje, ar tai yra labai retas dalykas.
Tendü Yogurtçu: Mes nieko nematėme. Yra daugiau klausimų apie tai. Manau, kad „Hadoop“ mainframe neturėjo daug prasmės dėl savotiškos pagrindinės struktūros. Vis dėlto „Spark“ mainframe yra gana prasminga ir „Spark“ yra tikrai labai gera mokantis kompiuterio ir numatant analizę, ir turėti kai kurias iš tų programų, kuriose yra pagrindinio kompiuterio duomenys, manau, gana prasminga. Mes dar nematėme nė vieno to darančio, tačiau šiuos dalykus lemia naudojimo atvejis. Jei jūsų, kaip įmonės, atvejis yra tas, kad labiau įtraukiate pagrindinio kompiuterio duomenis ir integruojate į likusius duomenų rinkinius didelėje duomenų platformoje, tai viena istorija. Tam reikia pasiekti pagrindinio kompiuterio duomenis iš didžiųjų duomenų „Multex“ platformos, nes mažai tikėtina, kad atnešite savo duomenų rinkinius iš atvirų sistemų ir paskambinsite į didžiųjų kompiuterių tinklą. Tačiau, jei turite kai kuriuos pagrindinio kompiuterio duomenis, kuriuos norite tiesiog ištirti ir šiek tiek aptikti duomenų tyrinėjimą, pritaikykite pažangias AI ir pažangias analitikas, tada „Spark“ gali būti geras būdas pereiti ir naudoti pagrindinį pagrindą.
Erikas Kavanaghas: Ir štai dar vienas klausytojų klausimas, iš tikrųjų dar du. Pateiksiu jums klausimą su komanda tag, tada mes susitvarkysime. Vienas dalyvis klausia: „Ar IBM integruoja jūsų atvirojo kodo indėlį į savo viešosios debesies ekosistemą, kitaip tariant, „ Bluemix “?“, O kitas dalyvis išsakė tikrai gerą mintį, pažymėdamas, kad „Syncsort“ yra puikus būdas išlaikyti didelę geležį gyvą tiems, kurie jau turite, bet jei įmonės atsisako naujų pagrindinių kompiuterių, remdamasis tuo, ką jis vadina CE, užmaskuokite viską, kad greičiausiai jis sumažės, tačiau pažymi, kad jūs, vaikinai, tikrai gerai perkate duomenis, apeidami operacines sistemas iki gigabaito per sekundę. Ar galite kalbėti apie savo pagrindinę jėgą, kaip jis minėjo, ir apie tai, ar IBM integruoja jūsų medžiagą į „Bluemix“?
„Tendü Yogurtçu“: Su IBM mes jau esame partneriai su IBM ir diskutavome dėl jų duomenų debesies paslaugų, siūlančių produktą. Mūsų atvirojo kodo straipsniai yra atviri visiems, norintiems jais pasinaudoti. Kai kurios pagrindinių kompiuterių jungtys taip pat yra „Spark“ paketuose, taigi ne tik IBM. Bet kas gali tuo pasinaudoti. „Bluemix“ programoje dar nieko konkrečiai nepadarėme. Ar jūs galvojate pakartoti antrą klausimą?
Ericas Kavanaghas: Taip, antrasis klausimas buvo susijęs su jūsų pagrindine funkcionalumo sritimi per daugelį metų, kuri iš tikrųjų buvo susijusi su ETL trūkumais ir akivaizdu, kad tai kažkas, ką jūs, vaikinai, vis dar ketinate daryti kaip pagrindinius kompiuterius, gerai, teoriškai likite nuošalyje, nors Dezo point vis dar yra toks arkliškas ir riedantis. Bet dalyvis tiesiog pažymėjo, kad „Syncsort“ labai gerai perkelia duomenis apeidama operacines sistemas ir iki sekundės iki gigabaito. Ar galite tiesiog pakomentuoti tai?
Tendü Yogurtçu: Taip, tai, kad bendras išteklių efektyvumas iš tikrųjų buvo mūsų stiprybė, o mastelio keitimas ir našumas buvo mūsų stiprybė. Mes nedarome kompromisų, supaprastinimas turi daug reikšmių, mes neturime kompromiso iš tų. Pavyzdžiui, kai 2014 m. Žmonės pradėjo kalbėti apie „Hadoop“, daugelis organizacijų iš pradžių nelabai žiūrėjo į pasirodymą. Jie sakė: „O jei atsitiks kažkas, aš galiu pridėti dar porą mazgų ir man viskas bus gerai, našumas nėra mano reikalavimas“.
Nors mes kalbėjome apie geriausius rezultatus, nes mes jau važiavome vietiniai, mes net neturėjome pradinių žagsėjimų, kuriuos Hive turėjo su keliais MapReduce darbais ir pridėtinėmis išlaidomis juos paleisdami. Žmonės mums sakydavo: „O, tai ne mano rūpestis, nesijaudink dėl to“.
Kai atėjome į 2015 m., Šis kraštovaizdis pasikeitė, nes kai kurie mūsų klientai jau viršijo saugyklas, kurias turėjo savo gamybos klasteriuose. Jiems tapo labai kritiška pamatyti, ką gali pasiūlyti „Syncsort“. Jei imate kai kuriuos duomenis iš duomenų bazės ar pagrindinio kompiuterio ir klasteriuose rašote į „Parquet“ formatą, nesvarbu, ar nusileisite, ar parodysite, ar darote kitą pertvarkymą, ar tiesiog atlikote skrydžio transformaciją ir nusileidėte tiksliniam failo formatui, tai pasikeitė, nes taupote saugyklą, taupote iš tinklo pralaidumo, taupote iš klasterio darbo krūvio, nes nevykdote papildomų darbų. Tos stipriosios pusės, kuriomis mes žaidžiame būdami labai sąmoningi, atrodo, kad efektyviai naudojame išteklius po oda, atrodo.
Štai kaip mes apibūdiname tai. Mums tai labai svarbu. Mes nemanome, kad tai savaime suprantama. Niekada nelaikėme jos savaime suprantamu dalyku, todėl ir toliau išliksime stiprūs, naudodamiesi „Apache Spark“ ar kita kompiuterio sistema. Tai ir toliau bus pagrindinis mūsų dėmesys. Kalbant apie duomenų judėjimą ir prieigą prie duomenų, tai neabejotinai yra viena iš mūsų stiprybių ir mes pasiekiame DB2 arba VSAM duomenis apie pagrindinius kompiuterius „Hadoop“ ar „Spark“ kontekste.
Ericas Kavanaghas: Na, tai puikus būdas baigti internetinę transliaciją, žmonės. Labai ačiū už jūsų laiką ir dėmesį. Ačiū tau, „Tendü“ ir „Syncsort“, kad užėjai į instruktažo kambarį ir, kaip sakoma, įėjai į turą. Daug puikių klausytojų klausimų. Tai nuolat judanti aplinka, žmonės. Šią „Hot Tech“ medžiagą archyvuosime kaip ir visas kitas. Mus galite rasti svetainėse insideanalysis.com ir techopedia.com. Paprastai jis pakyla maždaug per dieną. Su tuo mes atsisveikinsime, žmonės. Labai ačiū. Mes greitai su jumis kalbėsimės. Pasirūpink. Iki.
