Turinys:
- Kaip „Hadoop“ pradėjo savo veiklą?
- Kas yra taip svarbu Hadoop?
- Kas yra skaityta schema?
- Kas yra avilys?
- Kokius duomenis analizuoja „Hadoop“?
- Ar galite pateikti realaus pasaulio „Hadoop“ pavyzdį?
- Ar Hadoopas jau yra pasenęs ar tik pražūtingas?
Kas yra „Hadoop“? Tai geltonas žaislinis dramblys. Ne tai, ko tikėjotės? Kaip apie tai: Doug Cutting - šio atvirojo kodo programinės įrangos projekto kūrėjas - pasiskolino vardą iš savo sūnaus, kuris nutiko vadinti savo žaislinį dramblį Hadoopu. Trumpai tariant, „Hadoop“ yra programinės įrangos sistema, kurią sukūrė „Apache Software Foundation“ ir kuri naudojama kuriant daug duomenų reikalaujantį paskirstytą kompiuterį. Ir atrodo, kad tai yra svarbus kito žodžio žodžių komponentas, kurio skaitytojai niekada negali gauti: didelių duomenų. Čia yra septyni dalykai, kuriuos turėtumėte žinoti apie šią unikalią, laisvai licencijuotą programinę įrangą.
Kaip „Hadoop“ pradėjo savo veiklą?
Prieš dvylika metų „Google“ sukūrė platformą, skirtą manipuliuoti didžiuliais duomenų kiekiais, kuriuos ji rinko. Kaip dažnai daro bendrovė, „Google“ paskelbė savo dizainą visuomenei dviem dokumentais: „Google File System“ ir „MapReduce“.
Tuo pačiu metu „Doug Cutting“ ir „Mike Cafarella“ dirbo naujame paieškos variklyje „Nutch“. Jie abu taip pat stengėsi sutvarkyti didelius duomenų kiekius. Tuomet abu tyrinėtojai sužinojo apie „Google“ dokumentus. Ši laiminga sankryža viską pakeitė įvesdama „Cutting“ ir „Cafarella“ į geresnę failų sistemą ir būdą sekti duomenis, galų gale sukūrus „Hadoop“.
Kas yra taip svarbu Hadoop?
Šiandien surinkti duomenis yra lengviau nei bet kada. Turėdami visus šiuos duomenis atveria daug galimybių, tačiau yra ir iššūkių:- Dideliam duomenų kiekiui reikia naujų duomenų apdorojimo būdų.
- Fiksuojami duomenys yra nestruktūruoto formato.
Toliau jie turėjo pašalinti nestruktūrizuotus duomenis arba duomenis tokiais formatais, kokiais negalėjo dirbti standartinės reliacinių duomenų bazių sistemos. „Cutting“ ir „Cafarella“ suprojektavo „Hadoop“ dirbti su bet kokio tipo duomenimis: struktūrizuotais, nestruktūruotais, vaizdais, garso failais, net tekstu. Šioje „Cloudera“ („Hadoop“ integratorius) baltojoje knygoje paaiškinta, kodėl tai svarbu:
-
"Padaręs visus savo duomenis, ne tik tai, kas yra jūsų duomenų bazėse, jis gali būti naudojamas atskleidžiant paslėptus ryšius ir atskleidžiant atsakymus, kurie visada buvo tiesiog neprieinami. visuose duomenų rinkiniuose, ne tik pavyzdžiuose ir santraukose “.
Kas yra skaityta schema?
Kaip buvo minėta anksčiau, vienas iš „Hadoop“ pranašumų yra galimybė tvarkyti nestruktūrizuotus duomenis. Tam tikra prasme tai yra „skardinės išmetimas keliu“. Galiausiai duomenims analizuoti reikia tam tikros struktūros.
Štai čia ir bus naudojama skaitymo schema. Perskaityta schema yra tai, koks yra duomenų formatas, kur rasti duomenis (atsiminkite, kad duomenys yra išsklaidyti keliuose serveriuose), ir tai, ką reikia daryti su duomenimis - tai nėra paprasta užduotis. Buvo sakoma, kad manipuliuoti duomenimis „Hadoop“ sistemoje reikia verslo analitiko, statistiko ir „Java“ programuotojo įgūdžių. Deja, nėra daug žmonių, turinčių tokią kvalifikaciją.
Kas yra avilys?
Jei Hadoopui pasisekė, darbą su duomenimis reikėjo supaprastinti. Taigi, atvirojo kodo minia pateko į darbą ir sukūrė Avilį:-
"Avilys suteikia mechanizmą, leidžiantį projektuoti šių duomenų struktūrą ir užklausti duomenis naudojant SQL tipo kalbą, vadinamą" HiveQL ". Tuo pat metu ši kalba taip pat leidžia tradiciniams žemėlapių / mažinimo programuotojams prijungti savo pasirinktinius žemėlapių sudarytuvus ir reduktorius, kai tai nepatogu ar neveiksminga išreikšti šią logiką „HiveQL“.
„Avilys“ įgalina geriausias abiejų pasaulių galimybes: duomenų bazės personalas, susipažinęs su SQL komandomis, gali manipuliuoti duomenimis, o kūrėjai, susipažinę su skaitymo proceso schema, vis dar gali kurti tinkintas užklausas.
Kokius duomenis analizuoja „Hadoop“?
Žiniatinklio analizė yra pirmas dalykas, kuris ateina į galvą, analizuojant žiniatinklio žurnalus ir interneto srautą, siekiant optimizuoti svetaines. Pavyzdžiui, „Facebook“ neabejotinai yra žiniatinklio analizė, naudojant „Hadoop“, kad būtų galima rūšiuoti pagal bendrovės sukauptus duomenis terabaitais.
Įmonės naudoja „Hadoop“ grupes rizikos analizei, sukčiavimo nustatymui ir klientų bazės segmentavimui atlikti. Komunalinių paslaugų įmonės naudoja „Hadoop“ analizuodami jutiklių duomenis iš savo elektros tinklo, leisdami jiems optimizuoti elektros energijos gamybą. Pagrindinės įmonės, tokios kaip „Target“, „3M“ ir „Medtronics“, naudoja „Hadoop“, kad optimizuotų produktų paskirstymą, verslo rizikos vertinimą ir klientų bazės segmentaciją.
Universitetai taip pat investuojami į „Hadoop“. Šv. Tomo universiteto programinės įrangos studijų programos docentas Bradas Rubinas paminėjo, kad jo Hadoop patirtis padeda surūšiuoti daugybę duomenų, surinktų universiteto tyrimų grupių.
Ar galite pateikti realaus pasaulio „Hadoop“ pavyzdį?
Vienas iš labiau žinomų pavyzdžių yra „TimesMachine“. „The New York Times“ turi viso puslapio laikraščių TIFF atvaizdų, susijusių metaduomenų ir straipsnio teksto, kurį sudaro terabaitai duomenų, rinkinį nuo 1851 iki 1922 m. NYT Derekas Gottfridas, naudodamas EC2 / S3 / Hadoop sistemą ir specializuotą kodą:-
"Paimta 405 000 labai didelių TIFF vaizdų, 3, 3 milijono straipsnių SGML ir 405 000 xml failų, vaizduojančių straipsnius į stačiakampius TIFF failus. Šie duomenys buvo paversti žiniatinkliui patogesniais 810 000 PNG atvaizdų (miniatiūrų ir pilnų vaizdų) ir 405 000„ JavaScript “failų. "
Naudodamasis „Amazon Web Services“ debesies serveriais, „Gottfrid“ minėjo, kad visus „TimesMachine“ reikalingus duomenis jie galėjo apdoroti mažiau nei per 36 valandas.
Ar Hadoopas jau yra pasenęs ar tik pražūtingas?
„Hadoop“ gyvuoja jau daugiau nei dešimtmetį. Daugelis sako, kad tai pasenusi. Vienas ekspertas, daktaras Davidas Rico, teigė, kad "IT produktai yra trumpalaikiai. Šunų metais„ Google “produktų yra apie 70, o„ Hadoop “- 56“.
Gali būti šiek tiek tiesos apie tai, ką sako Rico. Atrodo, kad Hadoopas išgyvena kapitalinį remontą. Norėdami sužinoti daugiau apie tai, Rubinas pakvietė mane į „Twin Cities Hadoop“ vartotojų grupės susitikimą, o diskusijos tema buvo „Įvadas į giją“:
-
"„ Apache Hadoop 2 “turi naują variklį„ MapReduce “, kuris, palyginti su ankstesniu diegimu, turi nemažai pranašumų, įskaitant geresnį mastelį ir išteklių panaudojimą. Naujasis įgyvendinimas yra paremtas bendrąja išteklių valdymo sistema paskirstytų programų, vadinamų YARN, paleidimui.“
