Namai Duomenų bazės Pasiūlymo galia: kaip duomenų katalogas įgalina analitikus

Pasiūlymo galia: kaip duomenų katalogas įgalina analitikus

Anonim

Autorius „Techopedia“ darbuotojai, 2016 m. Birželio 22 d

„Takeaway“: Priimančioji Rebecca Jozwiak aptaria duomenų katalogų pranašumus su Dezu Blanchfieldu, Robinu Blooru ir Davidu Crawfordu.

Norėdami peržiūrėti vaizdo įrašą, turite prisiregistruoti į šį įvykį. Registruokitės norėdami pamatyti vaizdo įrašą.

Rebecca Jozwiak: Ponios ir ponai, sveiki ir sveiki atvykę į 2016 m. „Hot Technologies“. Šiandien mes turime „Pasiūlymo galia: kaip duomenų katalogas suteikia galimybę analitikams“. Šiandien „Kavanagh“, kol jis keliauja po pasaulį, todėl ačiū, kad prisijungėte. Šie metai karšti, ne tik karšta Teksase, kur aš esu, bet ir visur karšta. Atsiranda visokių naujų technologijų sprogimas. Turime daiktavardį, duomenų srautą, duomenų perkėlimą į debesis, „Hadoop“ toliau brandina ir priima. Mes turime automatizavimą, mašinų mokymąsi, ir visa tai, žinoma, pabrėžiama duomenimis. O įmonėms vis daugiau ir daugiau duomenų skatina dieną. Ir, be abejo, esmė - tai pritraukti žinių ir atradimų bei, žinote, priimti geresnius sprendimus. Tačiau norint iš tikrųjų gauti maksimalią naudą iš duomenų, ją gauti turi būti nesunku. Jei laikysite ją užrakintą, palaidotą ar kelių įmonės žmonių smegenyse, tai nepadarys daug naudos visai įmonei.

Aš galvojau apie duomenų katalogavimą ir, be abejo, galvodamas apie bibliotekas, kur jau seniai buvai, kur nuėjai, jei tau reikėjo ką nors išsiaiškinti, jei reikėjo išsiaiškinti kokią nors temą ar ieškoti tam tikros informacijos, tu nuėjai į biblioteką., ir, žinoma, jūs nuėjote į kortelių katalogą, ar ten dirbusią beprotišką moterį. Bet taip pat buvo smagu pasivaikščioti, jei tik norėjote pasižvalgyti ir įsitikinote, kad galbūt atrasite ką nors tvarkingo, galbūt sužinosite įdomių faktų, kurių nežinojote, bet jei tikrai reikėjo ką nors sužinoti., ir jūs žinojote, ko ieškote, jums reikėjo kortelių katalogo, ir, žinoma, įmonės atitikmuo yra duomenų katalogas, kuris gali padėti nušviesti visus duomenis, kad mūsų vartotojai galėtų praturtinti, atrasti, bendrinti, vartoti ir tikrai padėti. žmonės gauna duomenis greičiau ir lengviau.

Taigi šiandien turime Dezą Blanchfieldą, savo duomenų mokslininką, ir turime gydytoją Robiną Bloorą, savo vyriausiąjį analitiką, turime Davidą Crawfordą iš Alationo, kuris kalbės apie savo įmonės duomenų katalogavimo istoriją, bet pirmiausia mes eisime kartu su Dezu. Dez, aš perduodu jums kamuolį ir grindys yra jūsų.

Dez Blanchfield: Ačiū, ačiū, kad šiandien mane turite. Tai yra klausimas, kurį aš labai domiu, nes beveik kiekvienoje organizacijoje, su kuria susiduriu dirbdamas kasdienį darbą, randu lygiai tą patį klausimą, apie kurį labai trumpai kalbėjome prieššventiniame šou. dauguma organizacijų, kurios verčiasi verslu daugiau nei kelerius metus, turi daugybę duomenų, palaidotų aplink organizaciją, skirtingų formatų, ir iš tikrųjų turiu klientų, turinčių duomenų rinkinių, kurie grįžta į „Lotus Notes“, duomenų bazes, kurios vis dar veikia kai kuriose atvejų, kaip jų pseudointerneto, ir jie visi susiduria su šiuo iššūkiu iš tikrųjų surasti, kur yra jų duomenys ir kaip gauti prieigą prie jo, kam suteikti prieigą prie jo, kada suteikti prieigą prie jų ir kaip teisingai katalogą ir kaip patekti į tokią vietą, kur visi galėtų: A) žinoti, kas ten yra ir kas jame yra, ir B) žinoti, kaip prieiti prie jo ir juo naudotis. Ir, be abejo, vienas didžiausių iššūkių yra jį rasti, kitas didelis iššūkis yra žinoti, kas jame yra ir kaip prie jo prieiti.

Aš galbūt gerai žinau, kad turiu dešimtys duomenų bazių, bet iš tikrųjų nežinau, kas ten yra ar kaip sužinoti, kas ten yra, todėl visada, kai atrandame duomenis prieš parodymą, esate linkęs pasivaikščioti po biurą ir užduoti klausimus, šūkauti per kubines sienas ir bandyti išsiaiškinti, dažnai turiu patirties, galbūt net pastebėsite, kad klaidžiojate prie registratūros, registratūros ir klausiate, ar kas nors žino, kas jūs ketinate eiti kalbėtis. Gana dažnai tai ne visada IT žmonės, nes jie nežino duomenų rinkinio, nes kažkas ką tik juos sukūrė, ir tai gali būti kažkas paprasto - gana dažnai rasime kažkokį projektą, kuris stovi IT aplinkoje ir projekto vadovas panaudojo visų dalykų skaičiuoklę ir joje yra nemažai vertingos informacijos apie turtą, kontekstą ir vardus. Jei nežinote to projekto ir nepažįstate to asmens, tiesiog negalite rasti tos informacijos. Tai tiesiog nėra, ir jūs turite susitvarkyti tą originalų failą.

Yra frazė, apie kurią kalbėta apie duomenis, ir nebūtinai su ja sutinku, tačiau manau, kad tai mielas mažas išmetimo būdas, tai yra, kad tam tikras skaičius žmonių mano, kad duomenys yra naujoji nafta, ir aš įsitikinsime, kad kai kuriais aspektais tai aptarsime ir vėliau šiandien. Tačiau aš pastebėjau, be abejo, būdamas šios pertvarkos dalimi, kad verslo organizacijos, išmokusios vertinti savo duomenis, įgijo nemažą pranašumą prieš konkurentus.

Prieš maždaug penkerius ar šešerius metus buvo įdomus IBM leidinys, kuris apklausė apie 4000 kompanijų čia, Australijoje, ir jie paėmė visą informaciją, visus veiklos rezultatus, visus finansinius duomenis ir sudėjo į viryklę, o tada nusiuntė ją Australijos ekonomikos mokyklai, ir jie iš tikrųjų čia pradėjo bendrą tendenciją. Būtent tada įmonės, kurios pasitelkė technologijas, visada įgijo tokį konkurencinį pranašumą prieš savo bendraamžius ir konkurentus per se, kad jų konkurentai beveik niekada nesivysto, ir aš manau tai labai pasakytina apie duomenis, kuriuos mes matėme tai, ką žmonės vadina skaitmenine pertvarka, kai organizacijos, kurios aiškiai sugalvojo, kaip rasti gautus duomenis, padaryti juos prieinamus ir padaryti juos prieinamus labai lengvai naudojamiems madą, nebūtinai visada žinodami, kodėl organizacijai to gali prireikti, ir įgydami reikšmingą pranašumą prieš konkurentus.

Turiu porą pavyzdžių šioje skaidrėje, kuriuos galite pamatyti. Mano požiūris yra toks, kad didelio masto sutrikimus beveik kiekviename pramonės sektoriuje, mano manymu, lemia duomenys, ir jei dabartinės tendencijos turi ką veikti, aš manau, kad mes tik ką tik gavome prasidėjo todėl, kad kai ilgamečiai prekės ženklai pagaliau atsibunda, ką tai reiškia, ir pradeda žaidimą, jie pradės žaidimą didmenine prekyba. Kai kurie pagrindiniai mažmenininkai, turintys daugybę duomenų, pradeda taikyti istorinę duomenų analizę, net jei žino, kad jie egzistuoja, tada kai kurie internetiniai žaidėjai šiek tiek pažadins.

Bet turėdamas daugumą šių prekių ženklų turiu omenyje, kad turime „Uber“, kurie yra didžiausia taksi įmonė pasaulyje. Jie neturi jokių taksi, tad kas juos daro stebuklingu, kokie jų duomenys? „Airbnb“, didžiausia apgyvendinimo paslaugų teikėja, turime „WeChat“, didžiausią telefonų kompaniją pasaulyje, tačiau jie neturi jokios tikros infrastruktūros, telefonų ir telefono linijų. „Alibaba“, didžiausias mažmenininkas planetoje, tačiau jie neturi jokio inventoriaus. „Facebook“, didžiausia žodžio žiniasklaidos įmonė. Manau, kad paskutiniu metu jie turėjo 1, 4 milijardo aktyvių duomenų vartotojų, o tai protu nesuvokiamas skaičius. Tai nėra niekur šalia - manau, kad kažkas tvirtino, kad ketvirtadalis planetos iš tikrųjų ten gyvena kiekvieną dieną, ir vis dėlto štai turinio tiekėjas iš tikrųjų nekuria turinio, visi duomenys, kuriuos jie aptarnauja, nėra jų sukurti, jie sukurti jų abonentų, ir mes visi žinome šį modelį.

„SocietyOne“, apie kurį jūs galbūt negirdėjote, tai yra vietinis prekės ženklas. Manau, kad keliose šalyse tai yra bankas, kuris faktiškai užsiima tarpusavio skolinimu, taigi, kitaip tariant, neturi pinigų. Viskas, ką jis daro, tai jis tvarko operacijas ir po jais slypi duomenys. „Netflix“, mes visi tai labai, labai gerai žinome. Čia įdomus vienas įdėklas. Kai „Netflix“ legaliai buvo galima naudoti Australijoje, kai buvo oficialiai paskelbta, jums nereikėjo naudoti VPN, kad patektumėte į jį, daugelis žmonių visame pasaulyje linkę - jei negalite patekti į jį savo vietiniame rajone - Kai „Netfix“ buvo paleista Australijoje, ji padidino mūsų internetinių nuorodų tarptautinį pralaidumą 40 procentų, taigi beveik dvigubai padidino interneto naudojimą Australijoje per naktį - tik viena programa, viena debesies priglobta programa, kuri nieko neveikia, o žaidžia su duomenimis. Tai tik mintis gluminanti statistika.

Ir, žinoma, mes visi esame susipažinę su „Apple“ ir „Google“, tačiau tai yra didžiausias programinės įrangos verslas planetoje, tačiau jie iš tikrųjų nerašo programų. Kas suderinama su visomis šiomis organizacijomis? Na, tai duomenys, ir jie ten nepavyko, nes nežinojo, kur yra jų duomenys, ir nežinojo, kaip juos kataloguoti.

Tai, ką mes pastebime, yra tai, kad yra visa ši nauja turto klasė, vadinama duomenimis, ir įmonės atsibunda. Tačiau jie ne visada turi įrankius, know-how ir kodėl reikia tuos duomenis suskaičiuoti, kataloguoti ir paskelbti, tačiau pastebėjome, kad įmonės, kurios beveik neturi fizinio turto, įgijo didelę rinkos vertę įrašykite laiką per šią naują duomenų turto klasę. Kaip jau sakiau, kai kurie senieji žaidėjai dabar to atsibunda ir tikrai išveda.

Aš esu didelis gerbėjas, kad truputį leidžiuosi į folklorą, taigi aštuoniolikoje šimtų, aštuonioliktoje pabaigoje ir jūs būsite daugiau nei susipažinę su tuo JAV rinkoje, paaiškėjo, kad vykdyti surašymą kiekvienais metais, manau, kad jie tada juos vykdė kas dešimt metų, bet jei kasmet rengsite surašymą, duomenų analizei atlikti prireiks iki aštuonerių ar devynerių metų. Paaiškėjo, kad tada tas duomenų rinkinys buvo paliktas dėžutėse, popieriaus vietose, ir beveik niekas negalėjo jo rasti. Jie tiesiog kaupė šias ataskaitas, bet gauti duomenis buvo labai sunku, turime panašią situaciją su kitu pasauliui reikšmingu momentu, maždaug 1940-aisiais, su Antruoju pasauliniu karu, ir šitas dalykas yra „Bletchley Park Bombe“ parašyta BOMBE., ir tai buvo masinis skaičiavimo analizės įrankis, kuris eidavo per mažus duomenų rinkinius ir rastų jame signalus, ir būtų naudojamas padėti krekingo kodams per Enigmą.

Šis dalykas vėlgi buvo iš esmės įrenginys, suprojektuotas ne tiek kataloguoti, tiek žymėti ir žemėlapiuoti duomenis, leidžiančius paimti modelius ir rasti juos duomenų rinkiniuose, šiuo atveju - sugadinti kodus, rasti raktus ir frazes ir rasti reguliariai juos rinkdami į duomenų rinkinius, todėl mes ėjome į šią kelionę ieškodami duomenų duomenų ir veddami link duomenų katalogo.

Ir tada atsirado šie dalykai, šios didžiulės nebrangių mašinų lentynos, tiesiog ne lentynose esančios mašinos. Ir mes padarėme keletą labai įdomių dalykų, ir vienas iš dalykų, kuriuos mes padarėme su jais, yra tai, kad mes sukūrėme labai pigių grupių, kurios galėtų pradėti indeksuoti planetą, ir labai garsiai tai yra šie dideli prekės ženklai, kurie atsirado ir dingo, bet turbūt labiausiai paplitę „Google“ namai prekės ženklas, apie kurį visi girdėjome - jis tampa tikru veiksmažodžiu ir jūs žinote, kad jums sekasi, kai jūsų prekės ženklas tampa veiksmažodžiu. Tačiau tai, ko išmokė „Google“, nesuvokdami to, galbūt verslo pasaulyje, yra ta, kad jie sugebėjo indeksuoti visą planetą iki tam tikro lygio ir surašyti duomenis, esančius visame pasaulyje, ir padaryti jį labai lengvai prieinamus, patogi forma mažoje mažoje vienos eilutės formulėje, tinklalapyje, kuriame beveik nieko nėra, o jūs įvedėte savo užklausą, ji eina ir ją randa, nes jie jau apžiūrėjo planetą, ją indeksavo ir padarė ją lengvai prieinamą.

Ir tai, ką pastebėjome, buvo: „Gerai užsimerk, mes to nedarome organizacijose - kodėl taip yra? Kodėl mes turime organizaciją, kuri gali sukonstruoti visą planetą ir ją indeksuoti, nuskaityti ir indeksuoti bei padaryti ją prieinamą, galime jos ieškoti ir paspausti norimą daiktą ir surasti, kaip gi mes to nepadarėte savo viduje? “Taigi visame pasaulyje yra daugybė šių mažų mašinų stelažų, kurie daro tai intranetams ir randa daiktus, tačiau jie vis tiek tiesiog susiduria su mintimi peržengti tradicinį internetą. puslapis arba failų serveris.

Užuot įvedę šį naujos kartos duomenų katalogą įvairiais būdais, atrasti prieigą prie duomenų naudodamiesi užrašais ir šaltesniais pokalbiais iš tikrųjų nėra tinkamas metodas duomenims aptikti ir kataloguoti, ir iš tikrųjų aš nemanau, kad kada nors tikrai buvo. Mes nebegalime vadovauti tam visam iššūkiui žmonėms, tik perduodant užrašus, rašydami užrašus ir kalbėdami apie tai. Esame gerai ir tikrai už tos srities ribų, kur atsirado ir nebebuvo laikomasi kito metodo duomenų katalogavimo srityje. Mes turime susitvarkyti rankas. Jei tai buvo lengvas klausimas, mes jau anksčiau jį išspręsime įvairiais būdais, tačiau aš manau, kad tai nėra lengva problema, tiesiog duomenų indeksavimas ir skambinimas yra tik viena jo dalis, žinant, kas yra duomenyse ir kurti metaduomenis apie tai, ką mes atrandame, o po to lengvai ir lengvai prieinamus, ypač savitarnos ir analizės, pavidalu. Tai vis dar yra išspręsta problema, tačiau daugelis dėlionės dalių per penkerius metus yra gerai ir tikrai išspręstos bei prieinamos.

Kaip žinome, žmonių duomenų katalogavimas yra nesėkmės receptas, nes žmogiškos klaidos yra vienas didžiausių košmarų, su kuriuo susiduriame tvarkant duomenis, ir aš reguliariai kalbu šia tema, kurioje, mano manymu, tikriausiai didžiausias košmaras yra žmonėms, pildantiems popierines formas. mes susiduriame su dideliais duomenimis ir analitika, kad nuolat turėtume taisyti dalykus, kuriuos jie daro, net iki paprastų dalykų, tokių kaip datos ir laukai, žmonėms pateikiant netinkamą formatą.

Bet, kaip jau minėjau, interneto paieškos variklius matėme kiekvieną dieną, todėl dabar imamės minties, kad atradimų procese tai gali būti padaryta verslo duomenų rinkiniuose, o įrankiai ir sistemos yra dabar. lengvai prieinama, nes jūs ketinate mokytis šiandien. Taigi, mano nuomone, esminis dalykas yra pasirinkti tinkamus įrankius, geriausius įrankius darbui. O dar tikslingiau - surasti tinkamą jos dalį, kuri padėtų jums pradėti šį kelią. Ir aš tikiu, kad šiandien apie tai išgirsime, tačiau prieš tai padarydamas perduosiu savo kolegijai Robinui Bloorui ir išgirsiu jo požiūrį į šią temą. Robinai, ar galiu tau perduoti?

Robinas Blooras: Taip, tikrai galite. Pažiūrėkime, ar tai veikia, taip, taip. Gerai, kad einu iš kitos krypties, nei iš tikrųjų Dezas, bet galų gale toje pačioje vietoje. Kalbama apie prisijungimą prie duomenų, todėl aš tiesiog maniau, kad tikrai pereisiu prie prisijungimo prie duomenų realybės.

Yra duomenų, kad duomenys yra labiau suskaidyti nei bet kada. Duomenų kiekis auga fenomenaliai, tačiau iš tikrųjų skirtingi duomenų šaltiniai taip pat auga neįtikėtinu greičiu, todėl duomenys visą laiką tampa vis labiau suskaidomi. Bet visų pirma dėl analizės programų - tačiau jos nėra vienintelės programos - mes turime tikrai gerą priežastį prisijungti prie visų šių duomenų, todėl esame įstrigę sudėtingoje vietoje, esame pakliuvę į suskaidytų duomenų pasaulį, ir duomenų yra galimybė, kai Dezas tai vadino naująja alyva.

Apie duomenis, gerai, jis anksčiau gyveno besisukančiame diske - failų sistemose ar duomenų bazėse. Dabar jis gyvena daug įvairesnėje aplinkoje, gyvena failų sistemose, tačiau šiais laikais taip pat gyvena Hadoop instancijose ar net „Spark“ egzemplioriuose. Jis gyvena kelių rūšių duomenų bazėse. Ne taip seniai mes kažkiek standartizavome kokią nors reliacinę duomenų bazę. Gerai žinote, kad per pastaruosius penkerius metus išėjo pro langą, nes reikia dokumentų duomenų bazių, reikia grafinių duomenų bazių, taigi, žinote, žaidimas turi pasikeitė. Taigi jis gyveno verpimo diske, bet dabar gyvena SSD. Naujausias SSD kiekis - neabejotinai naujausias SSD įrenginys pasirodys iš „Samsung“ - dvidešimt gigabaitų, kuris yra didžiulis. Dabar tai atmintis ta prasme, kad pagrindinė duomenų kopija gali būti atmintyje, o ne diske. Mes nenaudojome tokių sistemų; mes darome dabar. Ir gyvena debesyje. Tai reiškia, kad jis gali gyventi bet kuriame iš šių dalykų, debesyje. Jūs nebūtinai žinosite, kur jis yra debesyje, turėsite tik jo adresą.

„Hadoop“ iki šiol nepavyko kaip išplėstinė duomenų saugykla. Tikėjomės, kad ji taps išplėsta duomenų saugykla ir taps tik viena failų sistema viskam, ir taip bus - danguje iš esmės pasirodys vaivorykštės, o vienaragiai šoks aplink, ir to nė neįvyko. O tai reiškia, kad susiduriame su duomenų perkėlimo problema ir kartais nereikia duomenų perdavimo, tačiau tai taip pat yra sunkumų. Šiais laikais duomenys iš tiesų turi sunkumą, kai tik įsigijote daugiababyčių duomenų, juos paėmę ir apmesdami, tam tikros priežastys lemia, kad latencijos gali atsirasti jūsų tinkle ar pasirodyti įvairiose vietose. Jei norite perkelti duomenis aplink, veiksnys yra laikas. Šiais laikais beveik visada yra tam tikrų apribojimų, kiek laiko jūs turite gauti vieną daiktą, vieną duomenis iš vienos vietos į kitą. Anksčiau mes galvojome apie paketinius langus, kai mašina veikė tuščiąja eiga, ir nesvarbu, kiek duomenų turėjote, jūs tiesiog galite ją mesti, ir visa tai pasiteisins. Taip jau nebėra, mes gyvename daug realesniame pasaulyje. Todėl laikas yra veiksnys. Kai tik norite perkelti duomenis, taigi, jei duomenys yra sunkūs, greičiausiai negalėsite jų perkelti.

Duomenų valdymas yra veiksnys ta prasme, kad jūs iš tikrųjų turite valdyti visus šiuos duomenis, jūs negaunate jų nemokamai, o norint iš tikrųjų gauti duomenis atlikti darbą, kurį reikia atlikti, gali prireikti pakartoti, nes gali būti ne visur, kur jį įdėjote. Ji gali neturėti pakankamai išteklių normaliam duomenų tvarkymui. Taigi duomenys atkartojami, o duomenys atkartojami daugiau, nei jūs įsivaizduotumėte. Manau, kažkas man seniai pasakė, kad vidutiniai duomenys yra pakartojami mažiausiai du su puse karto. ESB arba „Kafka“ pateikia duomenų srauto variantą, tačiau šiais laikais reikalinga architektūra. Šiais laikais iš tikrųjų reikia vienaip ar kitaip galvoti apie tai, ką iš tikrųjų reiškia mesti duomenis. Todėl paprastai yra geriau naudotis duomenimis ten, kur jie yra, jei, žinoma, jūs galite gauti reikiamą našumą, kai iš tikrųjų ieškote duomenų ir tai priklauso nuo konteksto. Taigi vistiek sudėtinga padėtis. Kalbant apie duomenų užklausas, mes galėjome galvoti apie SQL. Mes tikrai sugalvojome dabar, jūs žinote, skirtingas užklausų formas, SQL taip, bet greta esančios, taip pat grafiko užklausos, „Spark“ yra tik vienas pavyzdys. darydami grafiką, nes daugiau nei bet kada anksčiau turime atlikti teksto paiešką, taip pat naudoti ir regex tipo paieškas, o tai yra išties sudėtingas modelių ieškojimas ir tikras modelio atitikimas. Visi šie dalykai iš tikrųjų burbuliuoja. Ir jie visi yra naudingi, nes jie suteikia jums tai, ko ieškote, arba jie gali gauti tai, ko ieškote.

Dabar užklausos dienos apima kelis duomenis, todėl ne visada tai darė, o našumas dažnai būna pasibaisėtinas, jei tai darote. Taigi, tai priklauso nuo aplinkybių, tačiau žmonės tikisi, kad galės užklausti duomenis iš kelių duomenų šaltinių, todėl vienokios ar kitokios rūšies duomenų federacija tampa vis aktualesnė. Duomenų virtualizavimas, kuris yra skirtingas būdas tai padaryti, atsižvelgiant į našumą, taip pat labai dažnas. Duomenų užklausos yra proceso dalis, o ne visas procesas. Tiesiog verta pabrėžti, kad jei jūs iš tikrųjų žiūrite į analizės našumą, faktinė analizė gali užtrukti nepaprastai daug ilgiau nei duomenų rinkimas, nes tai priklauso nuo aplinkybių, tačiau duomenų užklausos yra absoliučiai būtinos, jei norite tai padaryti. panašių analizės būdų, susijusių su keliais duomenų šaltiniais, ir jūs tiesiog iš tikrųjų turite turėti tokias galimybes.

Taigi apie katalogus. Katalogai egzistuoja dėl priežasties, bent jau mes sakome, kad, žinokime, mes turime katalogus, duomenų bazėse turime schemas, turime katalogą ir turime, kur bekeliautumėte, rasite vieną vietą, o tada iš tikrųjų sužinok, kad yra kažkoks katalogas, o bendras pasaulinis katalogas yra tokia akivaizdžiai gera idėja. Tačiau labai mažai bendrovių turi tokį dalyką. Aš atsimenu, du tūkstančius metų - dviejų tūkstančių metų panikos metais - prisimenu, kad komunistai net negalėjo išsiaiškinti, kiek jų turėjo vykdytinų failų, net neprisimindami, kiek skirtingų duomenų saugyklų jie turėjo, ir tikriausiai taip yra dabar., žinote, kad dauguma kompanijų globalia prasme aktyviai nežino, kokius duomenis turi. Tačiau akivaizdu, kad vis labiau reikia turėti visuotinį katalogą ar bent jau susidaryti bendrą vaizdą apie tai, kas vyksta, nes daugėja duomenų šaltinių ir nuolat auga programų skaičius, o tai ypač svarbu analizėms, nes jūs taip pat vienaip ir čia yra ir kitų problemų, tokių kaip duomenų kilmė ir problemos, ir tai būtina saugumui, daugeliui duomenų valdymo aspektų, jei tikrai nežinote, kokius duomenis turite, idėja kad jūs valdysite tai yra tiesiog absurdas. Taigi visi duomenys tam tikru būdu yra kataloguoti yra tik faktas. Kyla klausimas, ar katalogas yra nuoseklus, ir iš tikrųjų, ką su juo galite padaryti. Taigi aš grįšiu į Rebeką.

Rebecca Jozwiak: Gerai, ačiū Robinui. Kitąkart mes turime Davidą Crawfordą iš „Alation“. Davidas aš eisiu į priekį ir perduosiu jums kamuolį, ir jūs galite jį atimti.

Davidas Crawfordas: Labai ačiū. Aš labai vertinu, kad jūs, vaikinai, mane vedėte šioje laidoje. Manau, kad pradėsiu tai pradėti, todėl manau, kad mano vaidmuo čia yra perimti dalį šios teorijos ir pamatyti, kaip ji iš tikrųjų taikoma, ir rezultatus, kuriuos sugebame paskatinti pas realius klientus, kad galėtumėte pamatyti Keletas skaidrių, noriu pakalbėti apie tai, kokius rezultatus galėsime pamatyti analizėje, galbūt, patobulinimus. Taigi, norėdami paskatinti diskusiją, kalbėsime apie tai, kaip jie ten pateko. Taigi man pasisekė gana glaudžiai bendradarbiauti su daugybe išties protingų žmonių, šių klientų, ir noriu tik atkreipti dėmesį į keletą, kurie sugebėjo iš tikrųjų įvertinti, ir pakalbėti apie tai, kaip duomenų katalogo turėjimas paveikė jų analitiką darbo eiga. Ir tik trumpam pabūti priekyje, manau, vienas iš dalykų, kuriuos mes matome, keičiantis duomenų katalogais su ankstesniais tarpininkautais sprendimais ir vienas iš būdų, kodėl santykiai iš tikrųjų galvoja apie sprendimus, kuriuos mes sukomponavome, yra pradėti nuo analitikų. ir dirbti atgal. Tarkime, padarykime tai apie analitikų produktyvumo įgalinimą. Priešingai nei tik atitikimas ar tiesiog turimas inventorius, mes darome įrankį, kuris padidina analitikų produktyvumą.

Taigi, kai aš kalbuosi su duomenų mokslininku finansinių paslaugų įmonės aikštėje, ten yra vaikinas Nickas, kuris pasakojo mums apie tai, kaip jam reikėjo kelių valandų rasti tinkamą duomenų rinkinį ataskaitai pradėti, dabar jis gali Padarykite tai per kelias sekundes, naudodamiesi paieška pagal rinkos dalį, mes kalbėjome su jų techninės priežiūros vadovu, kuris patraukė jo analitikus, kurie naudojo aikštę, atleiskit, naudojosi „Alation“, norėdami sužinoti, kas jų, kokią naudą jie pamatė, ir jie pranešė apie 50 Procentinis produktyvumo padidėjimas ir, kad, viename iš geriausių pasaulio mažmenininkų, „eBay“, jie turi daugiau nei tūkstantį žmonių, kurie reguliariai atlieka SQL analizę, ir aš gana glaudžiai bendradarbiauju su Deb Says, kuris yra tas projektas. duomenų valdytojų komandos vadovė, ir ji nustatė, kad kai užklausėjai priima „Alation“, priima katalogą, jie mato dvigubai greitesnį naujų užklausų rašymą duomenų bazėje.

Taigi tai yra tikri rezultatai, tai yra žmonės, kurie faktiškai taiko katalogą savo organizacijoje, ir aš noriu jums paaiškinti, ko reikia norint sukurti. Kaip katalogas sukuriamas įmonėje ir, ko gero, svarbiausia pasakyti, yra tai, kad didelė dalis jo nutinka automatiškai, todėl Dezas kalbėjo apie sistemas, apie sistemas mokėsi ir būtent tai ir daro šiuolaikinis duomenų katalogas. Taigi jie įdiegia „Alation“ savo duomenų centre ir tada jungia jį prie įvairių metaduomenų šaltinių savo duomenų aplinkoje. Šiek tiek sutelksiu dėmesį į duomenų bazes ir BI įrankius - iš jų abiejų ištrauksime techninius metaduomenis, iš esmės apie tai, kas egzistuoja. Deja, tai kokios lentelės? Kokios ataskaitos? Kokie yra ataskaitos apibrėžimai? Taigi jie išgauna tuos techninius metaduomenis ir kiekvienam tų sistemų viduje esančiam objektui automatiškai sukuriamas katalogo puslapis, o tada jie taip pat išskiria ir sluoksniuoja tuos techninius metaduomenis, o ant jų - naudojimo duomenis. Tai pirmiausia daroma skaitant užklausų žurnalus iš duomenų bazės, ir tai yra tikrai įdomus informacijos šaltinis. Taigi, kai analitikas rašo užklausą, kai ataskaitų teikimo įrankis, nesvarbu, ar jis auginamas namuose, ar ne prie lentynos, ar ataskaitų teikimo įrankis vykdo užklausą, kad atnaujintų prietaisų skydelį, kai programa vykdo užklausą, kad įterptų duomenis, kad galėtų veikti duomenų rinkinys - visi šie dalykai yra užfiksuojami duomenų bazės užklausų žurnaluose. Nesvarbu, ar turite katalogą, ar ne, jie užfiksuojami užklausų žurnale kartu su duomenų baze. Tai, ką gali padaryti duomenų katalogas, o ypač tai, ką gali padaryti „Alation“ katalogas, yra perskaityti tuos žurnalus, paklausti jų viduje esančių užklausų ir sudaryti tikrai įdomų naudojimo grafiką, pagrįstą tais žurnalais, ir mes tai įtraukiame į žaidimą, kad informuotume būsimus vartotojus duomenų apie tai, kaip ankstesni duomenų vartotojai tuo naudojosi.

Visas šias žinias mes sudedam į katalogą ir, norėdami tai padaryti realiai, tai yra integracijos, kurios jau yra įdiegtos pas klientus, taigi, mes matėme „Oracle“, „Teradata“, „Redshift“, „Vertica“ ir daugybę kitų Reliacinės duomenų bazės. „Hadoop“ pasaulyje yra daugybė SQL, „Hadoop“ tinkle, tam tikros reliacinės, „meta“ saugyklos, esančios „Hadoop“ failų sistemos viršuje, „Impala“, „Tez“, „Presto“ ir „Hive“, mes taip pat matėme sėkmę naudojant „Hadoop“ privačius tiekėjus, tokius kaip „Altiscale“, ir mes taip pat sugebėjo prisijungti prie „Tableau“ serverių, „MicroStrategy“ serverių ir indeksuoti ten esančius prietaisų skydus, taip pat integravosi su duomenų mokslo diagramų sudarymo įrankiais, tokiais kaip „Plotly“.

Taigi, mes prisijungiame prie visų šių sistemų, mes sujungėme šias sistemas su klientais, įtraukėme techninius metaduomenis, įtraukėme naudojimo duomenis ir rūšiuojame automatiškai užpildytą duomenų katalogą, tačiau tokiu būdu mes centralizuokite žinias, bet vien tik duomenų sukaupimas į duomenų katalogą savaime nesuteikia tų nuostabių produktyvumo didinimų, apie kuriuos kalbėjome „eBay“, „Square“ ir rinkos dalims. Norėdami tai padaryti, iš tikrųjų turime pakeisti požiūrį į žinių teikimą analitikams. Vienas iš klausimų, kuriuos jie prašo tam paruošti, buvo „Kaip katalogas iš tikrųjų veikia analitiko darbo eigą?“

Štai ką mes praleidžiame visą dieną galvodami, ir norėdamas pakalbėti apie šį mąstymo pasikeitimą apie „stumia versio“ modelį, norėjau greitai parodyti, koks buvo pasaulis prieš ir po skaitymo „Kindle“. Taigi tai tik patirtis, kurią kai kurie iš jūsų turite, skaitydami fizinę knygą, susidūrę su žodžiu, nesate tikri, kad puikiai žinote to žodžio apibrėžimą, galbūt atspėsite iš konteksto, ne tokia tikėtina, kad jūs ketinate atsikelti nuo sofos, nueiti į savo knygų lentyną, surasti savo žodyną, nuvalyti dulkes ir atsidurti tinkamoje vietoje abėcėlės tvarka pateiktame žodžių sąraše, kad įsitikintumėte, kad taip, jūs turėjote teisingą apibrėžimą ir žinote jo niuansai. Taigi taip nėra iš tikrųjų. Taigi, nusipirkę „Kindle“ programą, pradėsite joje skaityti knygas ir pamatysite žodį, dėl kurio nesate visiškai tikri, ir paliečiate žodį. Netikėtai, tame pačiame ekrane, yra žodyno žodžio apibrėžimas su visais jo niuansais, skirtingais pavyzdžiais, kuriuos jūs naudojate. Šiek tiek perbraukite ir gausite „Wikipedia“ straipsnį ta tema, vėl perbraukite, Jūs gaunate vertimo įrankį, kuris gali jį išversti į kitas kalbas ar iš kitų kalbų, ir staiga jūsų kalbos žinios yra daug turtingesnės ir tai tiesiog įvyksta stulbinamai daug kartų, palyginti su tuo, kada teko eiti ir patraukite tą resursą sau.

Taigi aš tvirtinsiu, kad analitiko darbo eiga ir būdas, kaip analitikas tvarkys duomenų dokumentaciją, iš tikrųjų yra labai panašus į tai, kaip skaitytojas sąveikaus su žodynu, nesvarbu, ar fizinis, ar nors „Kindle“, ir todėl mes, tai, kaip mes iš tikrųjų matėme šį produktyvumo padidėjimą, neišmetame katalogo, o susiejame jį su analitiko darbo eiga, todėl jie paprašė manęs čia atlikti demonstracinę versiją, ir aš noriu atkreipti dėmesį į šį pristatymą. Bet aš tik noriu sukurti demonstracinio vaizdo kontekstą. Kai galvojame apie duomenų perdavimą vartotojams, kai jiems to reikia, mes manome, kad tinkama vieta tai padaryti, vieta, kur jie praleidžia laiką ir kur atlieka analizę, yra SQL užklausų įrankis. Vieta, kur rašote ir vykdote SQL užklausas. Taigi mes sukūrėme vieną ir mes jį pastatėme, ir dalykas, kuris tikrai skiriasi nuo kitų užklausų įrankių, yra jo gilus integravimas į duomenų katalogą.

Taigi mūsų užklausos įrankis vadinamas „Alation Compose“. Tai internetinė užklausų priemonė, kurią per sekundę jums parodysiu. Internetinis užklausų įrankis, veikiantis visuose tuose duomenų bazių logotipuose, kuriuos matėte ankstesnėje skaidrėje. Aš ypač stengsiuosi demonstruoti tai, kaip informacija apie katalogą patenka vartotojams. Ir tai daro šiais trimis skirtingais būdais. Tai daro per intervencijas, o štai kas nors, kas yra duomenų valdytojas, duomenų tvarkytojas, ar tam tikru būdu yra administratorius, arba valdytojas, gali pasakyti: „Noriu įsiterpti į užrašą ar įspėjimą darbo eigą ir įsitikinkite, kad ji vartotojams bus pristatyta tinkamu laiku. “Taigi tai yra intervencija ir mes tai parodysime.

Intelektualūs pasiūlymai yra būdas, kai įrankis naudoja visas savo sukauptas žinias apie katalogą, kad pasiūlytų objektus ir užklausos dalis, kai jūs jį rašote. Svarbiausias dalykas, kurį reikia žinoti, yra tai, kad tam tikrai reikia užklausų žurnalo pranašumų, kad būtų galima siūlyti dalykus, pagrįstus naudojimu, ir taip pat surasti tolygesnes užklausų dalis, kurios buvo parašytos anksčiau. Ir mes tai parodysime.

Ir tada peržiūra. Peržiūros yra tai, kai rašote objekto pavadinimą, mes parodome jums viską, ką žino katalogas, arba bent jau svarbiausius dalykus, kuriuos katalogas žino apie tą objektą. Taigi duomenų pavyzdžiai, kurie anksčiau buvo juo naudojęsi, - objektyvus objekto pavadinimas ir aprašymas, - išeis iš jūsų, kai jūs jį rašysite, nereikia jo prašyti.

Taigi daugiau nieko nekalbėdamas, pateksiu į demonstracinę versiją ir tiesiog laukiu, kol ji pasirodys. Ką čia parodysiu, yra užklausos įrankis. Tai skirta SQL rašymo sąsaja. Tam tikra prasme tai atskira sąsaja nuo katalogo. Dezas ir Robinas kalbėjo apie katalogą, ir aš truputį peršokau per katalogo sąsają tiesiai į tai, kaip jis buvo pristatytas tiesiai į darbo eigą.

Aš tik rodysiu čia vietą, kur galėčiau įvesti SQL, o apačioje pamatysite, kad kažkokią informaciją apie objektus, kuriuos mes nurodome, turime. Taigi aš tiesiog pradėsiu rašyti užklausą ir sustosiu, kai pateksiu į vieną iš šių intervencijų. Taigi aš parašysiu „pasirinkti“ ir noriu metų. Noriu vardo. Ir aš einu ieškoti kai kurių duomenų apie atlyginimą. Taigi tai yra švietimo duomenų rinkinys. Jame yra informacijos apie aukštojo mokslo įstaigas, o aš žiūriu į vidutinį dėstytojų atlyginimą, nurodytą vienoje iš šių lentelių.

Taigi aš iš tikrųjų įvedžiau žodį „atlyginimas“. Tiksliai ne tame stulpelio pavadinime. Pasiūlymams teikti naudojame ir loginius, ir fizinius metaduomenis. Ir aš čia noriu atkreipti dėmesį į šią geltoną dėžutę. Sakoma, kad šioje kolonoje yra įspėjimas. Aš nesiūliau to ieškoti, nesilankiau pamokoje, kaip tinkamai naudoti šiuos duomenis. Tai man atėjo ir tai yra perspėjimas dėl konfidencialumo susitarimo, susijusio su šiais duomenimis. Taigi yra keletas informacijos atskleidimo taisyklių. Jei imsiuosi užklausos dėl šių duomenų, pašalinsiu duomenis iš šios lentelės, turėčiau būti atsargus, kaip juos atskleisiu. Taigi čia turite valdymo politiką. Yra keletas iššūkių, susijusių su atitiktimi, todėl labai lengva laikytis šios politikos, kai tuo metu žinau apie tai, kad žiūriu duomenis.

Taigi aš tai sugalvojau, o paskui žiūrėsiu ir į mokslą. Ir štai matome, kad peržiūra bus atkurta. Šiame mokymo stulpelyje matau - ant įstaigos stalo yra mokymo stulpelis, aš matau to profilį. Alation eina ir iš lentelių ištraukia pavyzdžių duomenis, ir šiuo atveju man tai parodo tai, kas yra gana įdomu. Tai man parodo verčių pasiskirstymą ir man parodo, kad nulio reikšmė pavyzdyje pasirodė 45 kartus, ir daugiau nei bet kuri kita vertė. Taigi aš supratau, kad mums gali trūkti duomenų.

Jei aš esu pažengęs analitikas, tai jau gali būti mano darbo proceso dalis. Ypač jei aš esu ypač kruopštus, kai prieš laiką atlikčiau daugybę profiliavimo užklausų. Kai aš artėju prie naujų duomenų, aš visada galvoju apie tai, kokia yra mūsų duomenų aprėptis. Bet jei aš pradedu duomenų analizę, jei aš dar nesu duomenų rinkinys, galiu manyti, kad jei yra stulpelis, jis visą laiką užpildomas. Arba galiu manyti, kad jei jis nėra užpildytas, tai nėra nulis, jis yra niekinis ar kažkas panašaus. Bet šiuo atveju mes turime labai daug nulių, ir jei aš padaryčiau vidurkį, jie greičiausiai būtų neteisūs, jei tiesiog daryčiau prielaidą, kad tie nuliai iš tikrųjų buvo nulis, o ne trūkstamų duomenų.

Bet „Alation“, įtraukdamas šią apžvalgą į savo darbo procesą, prašo peržvelgti šią informaciją ir suteikia galimybę net pradedantiesiems analitikams pamatyti, kad čia yra ką pastebėti apie tuos duomenis. Taigi, mes turime tą apžvalgą.

Kitas dalykas, kurį ketinu padaryti, yra bandyti išsiaiškinti, iš kokių lentelių gauti šią informaciją. Taigi čia matome išmaniuosius pasiūlymus. Jis vyko visą laiką, bet ypač čia net nieko neįrašiau, bet jis man pasiūlys, kokias lenteles galėčiau naudoti šiai užklausai. Ir svarbiausia žinoti apie tai, kad ji naudojasi naudojimo statistika. Taigi tokioje aplinkoje, kaip, pavyzdžiui, „eBay“, kurioje vienoje duomenų bazėje yra šimtai tūkstančių lentelių, turintį įrankį, kuris gali paspausti kviečius iš pelavų, ir naudoti tą naudojimo statistiką yra labai svarbu kuriant šias. pasiūlymų, kurių verta.

Taigi ji pasiūlys šią lentelę. Peržiūrėdami peržiūrą iš tikrųjų išryškiname tris stulpelius, kuriuos jau minėjau savo užklausoje. Taigi aš žinau, kad jo yra trys, bet jis neturi pavadinimo. Turiu gauti vardą, todėl ruošiuosi prisijungti. Kai prisijungiu, dabar vėl turiu šias peržiūras, kurios man padės rasti, kur yra lentelė su pavadinimu. Taigi aš matau, kad šis turi gražiai suformatuotą, tinkamai parašytą vardą. Atrodo, kad kiekvienoje įstaigoje yra viena eilutė su pavadinimu, todėl aš ją pagriebiu, o dabar man reikia prisijungimo sąlygos.

Taigi tai, ką daro „Alation“, vėl atsigręžia į užklausų žurnalus, mato ankstesnį kartą, kai šios dvi lentelės buvo sujungtos, ir siūlo skirtingus jų prisijungimo būdus. Dar kartą reikia intervencijos. Pažvelgęs į vieną iš jų, gaunu įspėjimą, kuris man parodo, kad tai turėtų būti naudojama tik apibendrintai analizei. Tikriausiai bus padarytas neteisingas dalykas, jei bandysite ką nors padaryti per instituciją. Kadangi šis, su OPE ID, patvirtinamas kaip tinkamas būdas sujungti šias dvi lenteles, jei norite universiteto duomenų. Taigi aš darau tai ir tai yra trumpa užklausa, tačiau aš parašiau savo užklausą nebūtinai turėdamas jokios informacijos apie tai, kas yra duomenys. Aš niekada nežiūrėjau į šio duomenų rinkinio ER diagramą, tačiau apie šiuos duomenis jau žinau labai daug, nes man tinkama informacija.

Taigi tai yra trys iš trijų būdų, kaip katalogas, naudodamas integruotą užklausų įrankį, gali tiesiogiai paveikti darbo eigą, kai rašote užklausas. Bet vienas iš privalumų, susijusių su užklausos įrankio, integruoto su katalogu, pranašumais yra tas, kad kai aš baigiu savo užklausą ir ją išsaugoju, galiu įvesti pavadinimą, pavyzdžiui, „Institucijos mokslas ir fakulteto atlyginimas“, tada turiu mygtuką, kuris leidžia man jį tiesiog paskelbti kataloge. Man tai padaryti labai lengva. Net jei jo neskelbiu, jis užfiksuojamas kaip užklausų žurnalo dalis, tačiau kai jį skelbiu, jis faktiškai tampa centralizuotos vietos, kurioje gyvena visos duomenų žinios, dalimi.

Taigi, jei spustelėsiu paiešką pagal visas užklausas „Alation“, aš būsiu imtasi - ir čia pamatysite dar šiek tiek katalogo sąsajos - esu nukreiptas į specialią užklausų paiešką, rodančią būdą, kaip rasti užklausas visoje visa organizacija. Matote, kad mano naujai paskelbta užklausa yra viršuje. Kai kurie gali pastebėti čia, kai, gaudami užklausas, mes taip pat fiksuojame autorius, ir mes tarsi nustatome šį ryšį tarp manęs, kaip autorės, ir šių duomenų objektų, apie kuriuos dabar kažką žinau. Aš tapau šios užklausos ir šių duomenų objektų ekspertu. Tai tikrai naudinga, kai žmonėms reikia sužinoti apie duomenis, tada jie gali rasti tinkamą žmogų, su kuriuo reikia sužinoti. Ir jei aš iš tikrųjų naujokas duomenims, nesvarbu, ar aš esu pažengęs analitikas, - būdamas pažengęs analitikas, galbūt pažvelgsiu į tai ir pamačiau daugybę pavyzdžių, kurie priverstų mane pradėti naudoti naują duomenų rinkinį. Aš galiu rasti iš anksto parengtų užklausų, kurios yra ataskaitos, kuriomis aš galiu pasinaudoti, kaip tas, kuris galbūt nesijaučia labai taupus naudodamas SQL.

Štai vienas Phil Mazanett apie vidutinius SAT balus. Spustelėkite tai ir gausiu pačios užklausos katalogo puslapį. Kalbama apie parašytą straipsnį, kuriame pateikiama nuoroda į šią užklausą, todėl yra keletas dokumentų, kuriuos turėčiau perskaityti, jei noriu išmokti juo naudotis. Ir aš galiu jį atidaryti užklausos įrankyje spustelėjęs mygtuką Sukurti, ir aš galiu jį čia paleisti, net neredaguodamas. Ir iš tikrųjų, jūs galite pamatyti šiek tiek mūsų lengvų ataskaitų teikimo galimybių, kai rašydami užklausą galite įmesti panašų šablono kintamąjį ir tai sukuria paprastą būdą sukurti formą užklausai vykdyti. dėl poros parametrų.

Taigi tai, ką turiu demonstracinei versijai. Aš ketinu grįžti prie skaidrių. Tiesiog norėdami paaiškinti, mes parodėme, kaip administratorius, duomenų valdytojas, gali įsikišti pateikdamas įspėjimus apie objektus, kurie rodomi užklausos įrankyje, kaip „Alation“ naudojasi savo žiniomis apie duomenų objektų naudojimą teikiant išmaniuosius pasiūlymus, kaip tai atneša profiliavimas ir kiti patarimai, kaip pagerinti analitikų darbo eigą, kai jie paliečia tam tikrus objektus, ir kaip visa tai perduodama į katalogą, kai rašoma naujų užklausų.

Akivaizdu, kad esu bendrovės atstovas. Aš pasakysiu gražius dalykus apie duomenų katalogus. Jei norite išgirsti tiesiogiai iš vieno iš mūsų klientų, Kristie Allen „Safeway“ vadovauja analitikų komandai ir pasakoja tikrai šaunią istoriją apie laiką, kai jai reikėjo iš tikrųjų sumušti laikrodį, kad būtų galima atlikti rinkodaros eksperimentą, ir kaip visa jos mintis komanda pasitelkė „Alation“, kad galėtų bendradarbiauti ir greitai apsispręsti dėl to projekto. Taigi galite paspausti šią „bit.ly“ nuorodą norėdami sužinoti šią istoriją arba norėdami šiek tiek sužinoti apie tai, kaip „Alation“ galėtų įnešti duomenų katalogą į jūsų organizaciją, mes mielai nustatėme suasmenintą demonstracinę versiją. Labai ačiū.

Rebecca Jozwiak: Labai ačiū, Deividai. Esu įsitikinęs, kad Dezas ir Robinas turi keletą klausimų, prieš pateikdami klausimo ir atsakymo klausimus. Dez, ar nori eiti pirmiau?

Dezas Blanchfildas: Visiškai. Man patinka šios paskelbtų užklausų idėjos idėja ir jos susiejimas su autoriaus šaltiniu. Aš buvau ilgalaikis šios vidinės programų parduotuvės idėjos čempionas ir manau, kad tai yra tikrai puikus pagrindas tuo remtis.

Aš norėjau šiek tiek sužinoti apie kai kurias organizacijas, kurias matote darant tai, ir apie kai kurias sėkmės istorijas, kurias jos galėjo turėti per šią visą kelionę, naudodamos ne tik jūsų įrankį ir platformą, kad surastumėte duomenis, bet ir tada taip pat pakeis savo vidinius kultūrinius ir elgesio bruožus. Dabar yra tokia vidinė programų parduotuvė, kurioje jūs tiesiog atsisiunčiate idėją, kurioje jie ne tik gali ją rasti, bet ir iš tikrųjų gali pradėti kurti mažas bendruomenes su tų žinių saugotojais.

Davidas Crawfordas: Taip, aš manau, kad mes nustebome. Mes tikime dalijimosi užklausų verte tiek iš mano, kaip „Adtech“ produkto vadovo, tiek iš visų klientų, su kuriais mes kalbėjome, tačiau vis tiek nustebau, kaip dažnai tai yra vienas iš pirmųjų dalykų, su kuriuo susiduria klientai. kalbėti apie vertę, kurią jie gauna iš Alation.

Viename iš mūsų klientų, vadinamoje „Invoice2go“, aš išbandžiau užklausos įrankio vartotoją. Jie turėjo palyginti naują produkto vadybininką. Jie sakė - jis iš tikrųjų man sakė, nepriprašytas vartotojo testo metu, „Aš iš tikrųjų ne išvis rašyti SQL, išskyrus tai, kad „Alation“ tai palengvino. “Ir, žinoma, kaip ministras pirmininkas, aš einu:„ Ką jūs turite omenyje, kaip mes tai padarėme? “, ir jis pasakė:„ Na, tai tikrai tiesiog nes galiu prisijungti ir galiu pamatyti visas šias esamas užklausas. “Pradėti nuo tuščio šifero naudojant SQL yra neįtikėtinai sunkus dalykas, tačiau modifikuoti esamą užklausą galite pamatyti pateiktą rezultatą ir pasakyti: „O, man tiesiog reikia šios papildomos skilties“ arba „Man reikia filtruoti ją pagal tam tikrą dienų seką“, tai padaryti yra daug lengviau.

Mes matėme, kokie yra šie pagalbiniai vaidmenys, pvz., Produktų vadybininkai, galbūt pardavimų ore dirbantys žmonės, kurie pradeda atsirinkti ir kurie visada norėjo išmokti SQL ir pradėti ją rinkti naudodamiesi šiuo katalogu. Mes taip pat matėme, kad daugybė kompanijų bandė padaryti atvirojo kodo rūšis. Aš bandžiau sukurti tokius dalykus iš vidaus, kur jie seka užklausas ir daro jas prieinamas. Yra keletas tikrai keblių dizaino iššūkių, kad jie būtų naudingi. „Facebook“ turėjo vidinį įrankį, kurį jie vadino „HiPal“ ir kuris užfiksavo visas užklausas, parašytas „Hive“, tačiau sužinojote, kad jei teisingai nenuviliate vartotojų, jums tereikia baigti labai ilgas pasirinktų teiginių sąrašas. O vartotojui, bandančiam išsiaiškinti, ar užklausa man yra naudinga, ar ji yra naudinga, jei aš einu peržvelgti ilgą pasirinktų teiginių sąrašą, man prireiks daug daugiau laiko, kad turėčiau ką nors vertingo nei pradedant nuo nulio. Gana kruopščiai galvojome, kaip sudaryti užklausų katalogą, kuris pateiktų reikiamą turinį ir pateiktų jį naudingu būdu.

Dezas Blanchfildas: Manau, kad mes visi keliaujame į šią kelionę nuo labai jauno amžiaus iki pilnametystės, daugeliu atvejų. Technologijų krūva. Aš pats asmeniškai išgyvenau tą patį autentišką dalyką, pavyzdžiui, mokiausi iškirpti kodą. Aš eidavau žurnalus, paskui knygas, studijuodavau iki tam tikro lygio, tada man reikėdavo eiti ir iš tikrųjų įgyti dar tam tikrą mokymą ir išsilavinimą.

Bet netyčia sužinojau, kad net mokydamasis savęs, skaitydamas žurnalus ir skaitydamas knygas, keisdamas kitų žmonių programas ir eidamas į kursus apie tai, vis tiek išmokau iš kursų, o tiesiog kalbėjau su kitais. žmonių, kurie turėjo tam tikros patirties. Ir aš manau, kad tai yra įdomus atradimas, kad dabar, kai jūs įtraukiate tai į duomenų analizę, mes iš esmės matome tą pačią paralelę, kad žmonės visada yra gana protingi.

Kitas dalykas, kurį labai noriu suprasti, labai aukšto lygio, daugelis organizacijų ketina paklausti: „Kiek laiko užtrunka iki to taško?“ Koks yra atskaitos taškas laiko atžvilgiu, kai žmonės gauna? įdiegta jūsų platforma ir jie pradėjo atrasti įrankių tipus? Kaip greitai žmonės, matydami šį dalyką, greitai virsta akimirksniu „a-ha“ akimirka, kai supranta, kad nebesijaudina net dėl ​​IG, nes ji jau yra, tačiau dabar jie iš tikrųjų keičia savo verslo būdą ? Jie atrado prarastą meną ir tikisi, kad su tuo gali padaryti ką nors tikrai, labai smagaus.

Davidas Crawfordas: Taip, aš galiu jį šiek tiek paliesti. Manau, kad kai mes įdiegsime, vienas iš malonių dalykų, vienas iš dalykų, kuris žmonėms patinka, kai yra katalogas, tiesiogiai sujungtas su duomenų sistemomis, yra tas, kad nepradėsite tuščios vietos, kur turite ją užpildyti. puslapis po puslapio. Tai visiškai tinka ankstesniems duomenų sprendimams, kai jūs turėtumėte pradėti nuo tuščio įrankio, o jūs turite pradėti kurti puslapį viskam, ką norite dokumentuoti.

Kadangi mes automatiškai dokumentuojame tiek daug dalykų, išgaudami metaduomenis, iš esmės per kelias dienas nuo programinės įrangos įdiegimo, įrankyje galite turėti savo duomenų aplinkos vaizdą, kurio bent 80 proc. Yra. Ir tada aš manau, kai tik žmonės pradeda rašyti užklausas naudodamiesi šiuo įrankiu, jie automatiškai išsaugomi atgal į katalogą, taigi ir jie bus rodomi.

Aš nenoriu per daug norėti to teigdamas. Manau, kad dvi savaitės yra gana geras konservatyvus įvertinimas - mėnuo. Dvi savaitės ar mėnuo yra konservatyvus įvertinimas, kai jūs tikrai apsisukote ir jaučiatės tarsi vertingi, tarsi pradėsite dalintis tam tikromis žiniomis ir galėsite ten nuvykti bei sužinoti apie savo duomenis.

Dezas Blanchfildas: Tai tikrai stebina, kai pagalvoji apie tai. Tai, kad kai kurios didelės duomenų platformos, kurias efektyviai indeksuojate ir kataloguoja, kartais užtruks iki metų, kad tinkamai įdiegtų, įdiegtų ir atsistotų.

Paskutinis klausimas, kurį jums turėjau prieš perduodamas Robin Bloor, yra jungtys. Vienas iš dalykų, iš karto manęs iššokęs, akivaizdu, kad visas iššūkis buvo sutvarkytas. Taigi labai greitai kyla keli klausimai. Viena, kaip greitai jungtys įgyvendinamos? Akivaizdu, kad jūs pradedate nuo didžiausios platformos, tokios kaip „Oracles“ ir „Teradatas“ ir kt. Bei „DB2“. Bet kaip reguliariai matote, kaip atsiranda naujos jungtys, ir kokį jų panaudojimo laiką reikia naudoti? Aš įsivaizduoju, kad turite jiems standartinę sistemą. Ir kaip giliai giliniesi į tuos? Pavyzdžiui, pasaulio „Oracles“ ir IBM, netgi „Tereadata“, o vėliau ir kai kurios populiaresnės vėlyvojo atvirojo kodo platformos. Ar jie dirba tiesiai su jumis? Ar jūs tai atrandate patys? Ar jūs turite turėti žinių apie tas platformas?

Kaip atrodo tam, kad sukurtumėte jungtį, ir kaip giliai įsitraukiate į tas partnerystes, kad užtikrintumėte, jog šios jungtys atranda viską, ką galite?

Davidas Crawfordas: Taip, tikrai, tai puikus klausimas. Manau, kad didžiąja dalimi galime sukurti jungtis. Mes tikrai tai darėme, kai buvome jaunesni startuoliai ir neturėjome klientų. Ryšius tikrai galime sukurti be jokios vidinės prieigos. Niekada negauname jokios specialios prieigos prie duomenų sistemų, kurios nėra viešai prieinamos ir dažnai nereikia jokios vidinės informacijos. Mes pasinaudojame metaduomenų paslaugomis, kurias teikia pačios duomenų sistemos. Dažnai tai gali būti gana sudėtinga ir su ja sunku dirbti. Aš ypač žinau „SQL Server“ - tai, kaip jie valdo užklausų žurnalą, yra keletas skirtingų konfigūracijų ir tai kažkas, su kuo jūs turite dirbti. Jūs turite suprasti niuansus ir rankenėles bei ratukus, kad tinkamai nustatytumėte, ir tai yra kažkas, dėl ko mes dirbame su klientais, nes mes tai darėme kelis kartus anksčiau.

Bet tam tikru mastu mes pasinaudojame tam tikromis viešosiomis API arba prieinamomis viešosiomis sąsajomis. Mes bendradarbiaujame su keliomis iš šių kompanijų, tai dažniausiai yra sertifikavimo pagrindas, kad jos jaustųsi patogiai sakydamos, kad dirbame, taip pat jos gali suteikti mums išteklių testavimui, kartais ankstyvą prieigą prie platformos, kuri išeina įsitikinti, kad mes dirbame prie naujų versijų.

Norėdami pasukti naują ryšį, norėčiau pasakyti dar kartą, norėčiau būti konservatyvus, tarkime, nuo šešių savaičių iki dviejų mėnesių. Tai priklauso nuo to, kiek jis panašus. Taigi kai kurie „Postgre“ darbai atrodo labai panašūs į „Raudonojo perėjimo“. „Redshift“ ir „Vertica“ dalijasi daugybe savo detalių. Taigi mes galime tuo pasinaudoti. Bet taip, nuo šešių savaičių iki dviejų mėnesių būtų teisinga.

Mes taip pat turime API, taigi - mes galvojame ir apie „Alation“ kaip metaduomenų platformą, taigi, jei kas nors nėra mums prieinamas ir automatiškai paimamas, yra būdų, kaip galite patys parašyti jungtį ir įstumti ją į mūsų sistemą kad viskas vis tiek sutelkta į vieną paieškos variklį.

Dez Blanchfield: Fantastiška. Aš tai vertinu. Taigi mes perduosime tai Robinui, nes esu tikras, kad jis taip pat turi daugybę klausimų. Robinas?

Rebecca Jozwiak: Robinas gali būti nutildytas.

Dezas Blanchfildas: Jūs nutilo .

Robinas Blooras: Taip, teisingai. Deja, nutildiau save. Kai tai įgyvendinsite, koks yra procesas? Man įdomu, nes daugelyje vietų gali būti labai daug duomenų. Taigi, kaip tai veikia?

Davidas Crawfordas: Taip, tikrai. Mes einame, pirmiausia tai yra tarsi IT procesas, kurio metu įsitikiname, kad mūsų serveris yra aprūpintas, kad tinklo jungtys yra prieinamos, uostai yra atviri, kad galėtume iš tikrųjų pasiekti sistemas. Jie visi dažnai žino, nuo kurių sistemų nori pradėti. Žinojimas duomenų sistemos viduje, kuri kartais mums padės. Mes padėsime jiems iš pradžių pažvelgti į užklausų žurnalą, kad suprastume, kas ką naudoja ir kiek vartotojų turi sistemoje. Taigi mes padėsime išsiaiškinti, kur jie dažnai būna - jei jie turi šimtus ar tūkstančius žmonių, kurie gali prisijungti prie duomenų bazių, jie iš tikrųjų nežino, kur prisijungia, todėl galime sužinoti iš užklausų žurnalai, kiek unikalių vartotojo abonementų jūs iš tikrųjų prisijungiate ir vykdote užklausas čia maždaug per mėnesį.

Taigi mes galime tuo pasinaudoti, bet dažnai tik dėl svarbiausių. Mes juos sukomplektuojame ir tada sakoma: „Tegul prioritetai“. Lygiagrečiai gali vykti įvairi veikla. Norėčiau sutelkti dėmesį į užklausos įrankio naudojimo mokymą. Kai žmonės pradeda naudotis užklausų įrankiu, pirmiausia, daug kam patinka tai, kad tai tik viena sąsaja su visomis jų skirtingomis sistemomis. Jie taip pat mėgsta tai, kad jis pagrįstas žiniatinkliu, nereikalauja jokių diegimų, jei nenori. Saugumo požiūriu jie mėgsta turėti vieną įėjimo tašką, tinklo požiūriu - tarp korporacinio IT tinklo ir duomenų centro, kuriame gyvena gamybos duomenų šaltiniai. Taigi jie sukonfigūruos „Alation“ kaip užklausos įrankį ir pradės naudoti programą „Compose“ kaip visų šių sistemų prieigos tašką.

Taigi, kai tik tai atsitiks, mes daugiausia dėmesio skiriame mokymui, kad suprastume, kokie yra kai kurie skirtumai tarp žiniatinklio ar serverio užklausų įrankio, palyginti su vienu, kurį turite darbalaukyje, ir kai kurių naudojimo niuansų. kad. Tuo pat metu mes pasistengsime išsiaiškinti vertingiausius duomenis, vėl pasinaudodami užklausų žurnalo informacija ir sakydami: „Ei, galbūt norėsite apsilankyti ir padėti žmonėms juos suprasti. Pradėkime skelbti reprezentacines užklausas ant šių lentelių. “Tai kartais yra efektyviausias būdas labai greitai priversti žmones susisprogdinti. Pažvelkime į jūsų pačių užklausų istoriją, paskelbkite šiuos dalykus, kad jie būtų rodomi kaip pirmosios užklausos. Kai žmonės žiūri į lentelės puslapį, jie gali pamatyti visas užklausas, kurios palietė tą lentelę, ir jie gali pradėti nuo ten. Ir tada pradėkime pridėti pavadinimus ir aprašus prie šių objektų, kad juos būtų lengviau surasti ir ieškoti, kad žinotum keletą niuansų, kaip juo naudotis.

Įsitikiname, kad įdėmiai apžiūrime užklausų žurnalą, kad galėtume sugeneruoti liniją. Vienas iš dalykų, kuriuos mes darome, yra tai, kad mes žiūrime užklausų žurnalą tuo metu, kai duomenys juda iš vienos lentelės į kitą, ir tai leidžia mums užduoti vieną iš dažniausiai užduodamų klausimų apie duomenų lentelę: iš kur tai atsirado? Kaip aš juo pasitikiu? Taigi mes galime parodyti ne tik tai, iš kokių kitų lentelių ji kilo, bet ir tai, kaip ji buvo pakeista. Tai vėlgi sukuria užklausų žurnalas.

Taigi mes pasirūpiname, kad tie dalykai būtų paruošti ir kad mes patektų į sistemą, ir taikomės į pačius vertingiausius ir didžiausią poveikį turinčius metaduomenų elementus, kuriuos galime nustatyti lentelių puslapiuose, kad kai ieškote, rasite ką nors naudingo.

Robinas Blooras: Gerai. Kitas klausimas - kyla daug klausytojų klausimų, todėl nenoriu čia užimti per daug laiko - kitas klausimas, kuris ateina į galvą, yra tik skausmo taškai. Daug programinės įrangos perkama, nes žmonės vienaip ar kitaip turi sunkumų su kažkuo. Taigi koks yra bendras skausmo taškas, kuris žmones veda į Alaciją?

Davidas Crawfordas: Taip. Manau, kad jų yra keletas, bet aš manau, kad vienas iš tų, apie kurį dažnai girdime, yra analitikas. „Man artimiausiu metu reikės įdarbinti 10, 20, 30 žmonių, kurie turės pateikti naujų įžvalgų iš šių duomenų. Kaip jie pasitrauks?“ Taigi analitikas, įlaipinantis į lėktuvą, yra tas, ko mes tikrai neabejotinai turime. sprukti. Vyresnieji analitikai taip pat atleidžia nuo to, kad jie visą laiką leidžia atsakydami į kitų žmonių klausimus apie duomenis. Tai taip pat labai dažnai. Ir jos abi iš esmės yra švietimo problemos.

Ir tada sakyčiau, kad kita vieta, kurioje matome žmones, kurie priima „Alation“, yra tada, kai jie nori sukurti visiškai naują duomenų aplinką, kad kažkas galėtų dirbti. Jie nori tai reklamuoti ir pateikti į rinką, kad žmonės galėtų tuo pasinaudoti. Tada „Alation“ pritraukimas į naująją analitinę aplinką yra labai patrauklus. Tai dokumentacija, vienas įžangos taškas - vienas prieigos prie sistemų taškas, taigi tai dar viena vieta, kur žmonės ateis pas mus.

Robinas Blooras: Gerai, aš jus perduosiu Rebekai, nes auditorija bando su jumis susisiekti.

Rebecca Jozwiak: Taip, mes turime daug tikrai gerų klausimų auditorijai. Ir Dovydai, šis buvo pozuotas specialiai tau. Tai kažkas, kas, matyt, turi tam tikros patirties, susijusios su žmonių netinkama užklausa, ir jis sako, kad kuo daugiau įgaliname vartotojų, tuo sunkiau valdyti atsakingą skaičiavimo išteklių naudojimą. Taigi ar galite apsiginti nuo klaidingų, bet bendrų užklausos frazių plitimo?

Davidas Crawfordas: Taip, aš matau šį klausimą. Tai puikus klausimas. Tokio klausimo sulaukiame gana dažnai. Aš pats mačiau skausmą ankstesnėse įmonėse, kur reikia mokyti vartotojus. Pvz., „Tai yra žurnalų lentelė, joje yra metų žurnalai. Jei ketinate rašyti užklausą ant šios lentelės, tikrai turite riboti datą. “Taigi, pavyzdžiui, tai mokymai, kuriuos praėjau ankstesnėje įmonėje prieš man suteikiant prieigą prie duomenų bazės.

Mes turime keletą būdų, kuriais bandome tai išspręsti. Aš sakyčiau, kad aš manau, kad užklausų žurnalų duomenys yra tikrai vienareikšmiškai vertingi norint juos pašalinti. Tai suteikia dar vieną įžvalgą, palyginti su tuo, ką duomenų bazė daro su savo užklausų planuokliu. Ir tai, ką mes darome, yra viena iš tų intervencijų - mes turime rankinę intervenciją, kurią aš parodžiau, ir tai yra naudinga, tiesa? Taigi, pavyzdžiui, ant konkretaus prisijungimo galite pasakyti: „Nuskaičiuokime tai“. Kai ji pasirodys išmaniajame pasiūlyme, ji turės didelę raudoną vėliavą. Taigi tai yra vienas iš būdų pabandyti susisiekti su žmonėmis.

Kitas dalykas, kurį mes darome, yra automatizuotas vykdant veiksmus. Tai iš tikrųjų naudos užklausos medį prieš paleidžiant jį norėdami pamatyti. Ar jame yra tam tikras filtras ar keletas kitų dalykų, kuriuos mes taip pat darome ten. Bet vienas iš vertingiausių ir paprasčiausias paaiškinti yra, ar jame yra filtras? Taigi, kaip tas pavyzdys, kurį aš ką tik pateikiau, ši žurnalo lentelė, jei ketinate jos paklausti, turi turėti dienų seką, ten esančiame lentelės puslapyje galite nurodyti, kad jūs įgaliojate taikyti tą dienų sekos filtrą. Jei kas nors bandys paleisti užklausą, kurioje nėra šio filtro, tai iš tikrųjų sustabdys jį, įspėjęs ir pasakys: „Turbūt turėtumėte pridėti šiek tiek SQL, kuris atrodo toks, prie jūsų užklausos.“ Jie gali tęstis, jei jie nori. Mes tikrai neuždrausime jų naudoti - tai taip pat užklausa, ji turi, dienos pabaigoje, vykdyti užklausas. Tačiau mes priešais juos pastatome gana didelę kliūtį ir pateikiame jiems pasiūlymą, konkretų taikomą pasiūlymą pakeisti užklausą, kad būtų pagerintas jų našumas.

Kai kuriais atvejais mes tai darome automatiškai, vėl stebėdami užklausų žurnalą. Jei pamatysime, kad kai kurie tikrai dideli procentai užklausų šioje lentelėje naudojasi tam tikru filtru ar tam tikra prisijungimo sąlyga, mes iš tikrųjų tai iškviesime. Mes paskelbsime tai intervencija. Tiesą sakant, man tai atsitiko dėl vidinių duomenų rinkinio. Mes turime klientų duomenis ir vartotojo ID, tačiau vartotojo ID yra nustatyti, nes tai yra savotiška - kiekvieno kliento turime vartotojo ID. Tai nėra unikalu, todėl jūs turite susieti jį su kliento ID, kad gautumėte unikalų prisijungimo raktą. Aš rašiau užklausą ir bandžiau ką nors išanalizuoti, ir tai iššokant pasakiau: „Ei, atrodo, kad visi kiti prisijungia prie šių lentelių ir su kliento ID, ir su vartotojo ID. Ar tikrai nenorite to daryti? “Ir tai iš tikrųjų sustabdė mane nuo netinkamos analizės. Taigi tai tinka tiek analizės tikslumui, tiek atlikimui. Taigi būtent taip ir imamės šios problemos.

Rebecca Jozwiak: Man tai atrodo veiksminga. Sakėte, nebūtinai užkirsite kelią žmonėms kaupti išteklius, bet išmokysite juos, kad tai, ką jie daro, gali būti ne pati geriausia, tiesa?

Davidas Crawfordas: Mes visada manome, kad vartotojai nėra klastingi - stenkitės jiems kuo geriau - ir tokiu būdu stengiamės būti gana atviri.

Rebecca Jozwiak: Gerai. Kitas klausimas: „Kuo skiriasi katalogo tvarkyklė, kaip jūsų sprendimas, ir MDM įrankis? Ar tai iš tikrųjų pasikliauja kitu principu, praplečiant užklausų lentelių pasirinkimą, o MDM tai darytų automatiškai, tačiau turėdamas tą patį pagrindinį metaduomenų rinkimo principą. "

Davidas Crawfordas: Taip, aš manau, kad kai žiūriu į tradicinius MDM sprendimus, pagrindinis skirtumas yra filosofinis. Viskas priklauso nuo to, kas yra vartotojas. Panašiai, kaip sakiau pranešimo pradžioje, „Alation“, manau, kai buvome įkurti, mes buvome įkurti tam, kad analitikai galėtų pateikti daugiau įžvalgų, greičiau jas pateikti, kad jie būtų tikslesni gaminti. Nemanau, kad tai kada nors buvo tradicinio MDM sprendimo tikslas. Šie sprendimai paprastai yra nukreipti į žmones, kuriems reikia pateikti ataskaitas apie tai, kokie duomenys buvo surinkti SCC ar viduje kokiais nors kitais audito tikslais. Tai kartais gali įgalinti analitikus, tačiau dažniau, jei ketinama įgalinti praktiką jų darbe, didesnė tikimybė, kad įgalins duomenų architektą, pavyzdžiui, DBA.

Kai galvojate apie dalykus analitiko požiūriu, būtent tada pradedate kurti užklausos įrankį, kurio MDM įrankis niekada nepadarytų. Tada jūs pradedate galvoti apie našumą ir tikslumą, taip pat suprantate, kokie duomenys yra susiję su mano verslo poreikiu. Visi šie dalykai yra tokie dalykai, kurie mūsų mintyse atrodo pop, kai mes kuriame įrankį. Tai patenka į mūsų paieškos algoritmus, į katalogų puslapių išdėstymą ir galimybę įnešti žinių iš visos organizacijos. Aišku, kad mes sukūrėme užklausos įrankį ir kad katalogą kūrėme tiesiai į jį, todėl aš manau, kad jis iš to kyla. Koks vartotojas pirmiausia turi omenyje?

Rebecca Jozwiak: Gerai, gerai. Tai tikrai padėjo tai paaiškinti. kuris svajojo susitvarkyti archyvus, nes turėjo išvykti, tačiau labai norėjo, kad į jo klausimą būtų atsakyta. Jis sakė, kad pradžioje buvo paminėta, kad yra keletas kalbų, tačiau ar „SQL“ yra vienintelė kalba, kuria naudojasi „Compose“ komponentas?

Davidas Crawfordas: Taip, tai tiesa. Ir vienas iš dalykų, kuriuos pastebėjau, būdamas įvairių rūšių duomenų bazių, dokumentų duomenų bazių, grafikų duomenų bazių, pagrindinių vertybių saugyklų sprogimo liudininkas, yra tas, kad jos yra tikrai galingos tobulinant programas. Jie ten tikrai gali patenkinti konkrečius poreikius, geresniais būdais, nei tai gali padaryti reliacinės duomenų bazės.

Bet kai grąžinate ją į duomenų analizę, kai ją grąžinate į - kai norite suteikti tą informaciją žmonėms, ketinantiems atlikti ad hoc ataskaitas ar specialiai gilintis į duomenis, kad jie visada grįžta į reliatyvųjį ryšį bent jau sąsaja žmonėms. Iš dalies tai tik todėl, kad SQL yra duomenų analizės „lingua franca“, taigi žmonėms tai reiškia ir integruotus įrankius. Manau, kad dėl šios priežasties „Hadoop“ SQL yra toks populiarus ir yra tiek daug bandymų ją išspręsti, nes dienos pabaigoje būtent tai žmonės žino. Tikriausiai yra milijonai žmonių, kurie žino, kaip rašyti SQL, ir aš drįsčiau ne milijonams, kurie žino, kaip parašyti „Mongo aggregation pipeline framework“ užklausą. Ir kad tai yra standartinė kalba, naudojama integracijai iš tiesų įvairiausių platformų. Taigi, viskas, kas sako, mes labai retai prašome išeiti už jos ribų, nes tai yra sąsaja, kuria naudojasi dauguma analitikų, ir tai yra vieta, kur mes, ypač „Compose“, mes sutelkėme dėmesį į SQL rašymą.

Aš sakyčiau, kad duomenų mokslas yra vieta, kur jie dažniausiai veržiasi, todėl kartais gauname klausimų apie „Pig“ ar SAS naudojimą. Tai yra dalykai, kurių mes tikrai netvarkome kurdami ir kuriuos norėtume užfiksuoti kataloge. Aš taip pat matau „R“ ir „Python“. Keliais būdais mes sukūrėme sąsajas, kuriomis galite naudoti užklausas, parašytas Alation, R ir Python scenarijų viduje, todėl, kadangi dažnai esate duomenų žinovas ir dirbate scenarijų kalba, jūsų pirminiai duomenys yra reliacinėje duomenų bazėje. Pradėsite nuo SQL užklausos, tada ją toliau apdorosite ir sudarysite grafikus R ir Python viduje. Ir mes sukūrėme paketus, kuriuos galite importuoti į tuos scenarijus, iš kurių užklausos ar užklausos rezultatai gaunami iš „Alation“, kad galėtumėte ten turėti sumaišytą darbo eigą.

Rebecca Jozwiak: Gerai, puiku. Žinau, kad šiek tiek praėjome valandos viršų, tiesiog ketinu užduoti dar vieną ar du klausimus. Aš žinau, kad jūs kalbėjote apie visas skirtingas sistemas, prie kurių galite prisijungti, tačiau kiek tai įmanoma išorėje ir vidiniuose talpinamuose duomenyse, jų kartu galima ieškoti jūsų bendrame vaizde, jūsų vienoje platformoje?

Davidas Crawfordas: Žinoma. Yra keli būdai tai padaryti. Aš turiu omenyje, kad buvau išorėje, įsivaizduoju, bandau tiksliai galvoti, ką tai galėtų reikšti. Tai gali reikšti duomenų bazę, kurią kažkas priglobia AWS už jus. Tai gali reikšti viešą duomenų šaltinį iš „data.gov“. Mes tiesiogiai jungiamės prie duomenų bazių prisijungę prie duomenų bazių sąskaitos, kaip ir su kita programa, ir taip mes išskleidžiame metaduomenis. Taigi, jei turime sąskaitą ir turime tinklo prievadą, galime prie jo prisijungti. Tada, kai neturime tų dalykų, turime vadinamąjį virtualų duomenų šaltinį, kuris leidžia jums iš esmės perkelti dokumentus automatiškai, rašydami savo jungtį arba užpildydami juos atlikdami net kaip CSV įkėlimą, dokumentuoti duomenis kartu su vidiniais duomenimis. Visa tai dedama į paieškos variklį. Tai tampa nuoroda į straipsnius ir kitą dokumentaciją bei pokalbius sistemos viduje. Taigi taip elgiamės, kai negalime tiesiogiai prisijungti prie sistemos.

Rebecca Jozwiak: Gerai, kad prasminga. Aš jums išrašysiu dar vieną klausimą. Vienas dalyvis yra klausia: „Kaip turėtų būti patvirtintas, patikrintas ar prižiūrimas duomenų katalogo turinys, atnaujinant šaltinio duomenis, modifikuojant šaltinio duomenis ir pan.“

Davidas Crawfordas: Taip, tai klausimas, kurio sulaukiame labai daug, ir aš manau, kad vienas iš dalykų, vienas iš mūsų filosofijos, kaip jau sakiau, mes netikime, kad vartotojai yra klastingi. Manome, kad jie stengiasi prisidėti kuo geriau. Jie nesiruošia ir sąmoningai klaidina žmones dėl duomenų. Jei tai yra jūsų organizacijos problema, galbūt „Alation“ nėra jums tinkamas įrankis. Bet jei prisiimate gerus vartotojų ketinimus, tada mes galvojame apie tai kaip apie naujinius, kurie paprastai būna atnaujinami, o tada paprastai mes įvedame ūkvedį, atsakingą už kiekvieną duomenų objektą arba kiekvieną duomenų skyrių. Ir mes galime pranešti tiems prižiūrėtojams, kai bus pakeisti metaduomenys, ir jie galės tokiu būdu susitvarkyti. Jie mato naujinius, jie juos patvirtina. Jei jie nėra teisingi, jie gali grįžti prie jų ir juos modifikuoti bei informuoti ir, tikiuosi, netgi susisiekti su vartotoju, kuris pateikė informaciją, ir padėti jiems mokytis.

Taigi tai yra pagrindinis būdas, apie kurį galvojame tai darydami. Tokį minios pasiūlymą ir ūkvedžių valdymą, taigi, mes turime tam tikrų galimybių.

Rebecca Jozwiak: Gerai, gerai. O jei galėtumėte žmonėms pranešti, kaip jiems geriausia pradėti naudotis „Alation“, ir kur jie galėtų kreiptis, norėdami gauti daugiau informacijos. Aš žinau, kad jūs pasidalinote tuo bit.ly. Ar tai geriausia vieta?

Davidas Crawfordas: Alation.com/learnmore Manau, kad tai puikus būdas eiti. Norėdami prisijungti prie demonstracinės versijos, „Alation.com“ svetainė turi daugybę puikių šaltinių, klientų baltųjų knygų ir naujienų apie mūsų sprendimą. Taigi manau, kad tai puiki vieta pradėti. Taip pat galite siųsti el.

Rebecca Jozwiak: Gerai, puiku. Žinau, dalyviai, atsiprašau, jei šiandien nesutikau su visais klausimais, bet jei ne, jie bus perduoti Deividui ar jo pardavimo komandai ar kam nors iš Alation, taigi jie tikrai gali padėti atsakyti į jūsų klausimus ir padėti suprasti ką daro Alation ar ką jie daro geriausiai.

Tada žmonės, aš eisiu pirmyn ir pasirašysiu mus. Visuomet galite rasti archyvus svetainėje InsideAnalysis.com. Jį taip pat galite rasti Techopedia.com. Jie linkę šiek tiek greičiau atnaujinti, todėl būtinai patikrinkite. Ir labai ačiū Davidui Crawfordui, Dezui Blanchfieldui ir Robinui Boorui šiandien. Tai buvo puiki internetinė transliacija. Ir su tuo atsisveikinsiu. Ačiū, žmonės. Iki.

Davidas Crawfordas: Ačiū.

Pasiūlymo galia: kaip duomenų katalogas įgalina analitikus