Namai Tendencijos Kaip hadoop padeda išspręsti didelių duomenų problemą

Kaip hadoop padeda išspręsti didelių duomenų problemą

Turinys:

Anonim

Dideli duomenys yra … gerai … dideli! Tiksliai tai, kiek duomenų galima priskirti dideliems duomenims, nėra tiksliai apibrėžta, todėl nesigilinkime į tas diskusijas. Mažai įmonei, įpratusiai tvarkyti duomenis gigabaitais, 10 TB duomenų būtų BIG. Tačiau tokioms įmonėms kaip „Facebook“ ir „Yahoo“ petabaitai yra dideli.


Vien dėl didelių duomenų dydžio neįmanoma (arba bent jau per brangu) laikyti juos tradicinėse saugyklose, tokiose kaip duomenų bazės ar įprastos rinkmenos. Mes kalbame apie išlaidas saugoti gigabaitus duomenų. Naudojant tradicinius duomenų kaupiklius, didelių duomenų saugojimas gali kainuoti daug pinigų.


Čia apžvelgsime didelius duomenis, jų iššūkius ir tai, kaip „Hadoop“ gali padėti juos išspręsti. Pirmiausia, didžiausi didelių duomenų iššūkiai.


Didieji duomenys yra nestruktūruoti arba pusiau struktūruoti

Daug didelių duomenų yra nestruktūruota. Pavyzdžiui, spustelėję srauto žurnalo duomenys gali atrodyti taip:


laiko antspaudas, vartotojo_ ID, puslapis, persiuntimo puslapis


Dėl nepakankamos struktūros reliacinės duomenų bazės netinka dideliems duomenims saugoti. Be to, ne viena duomenų bazė gali susidoroti su milijardų duomenų eilučių saugojimu.

Nėra prasmės kaupti didelių duomenų, jei negalime jų apdoroti

Didelių duomenų saugojimas yra žaidimo dalis. Turime ją apdoroti, kad iš jos išgautų žvalgybą. Tradicinės laikymo sistemos yra gana „kvaili“ ta prasme, kad tiesiog kaupia bitus. Jie nesiūlo jokios apdorojimo galios.


Tradiciniame duomenų apdorojimo modelyje yra duomenų, saugomų atminties klasteryje, kurie nukopijuojami į skaičiavimo klasterį, kad būtų galima juos apdoroti. Rezultatai įrašomi atgal į saugyklos grupę.


Tačiau šis modelis nelabai tinka dideliems duomenims, nes nukopijuoti tiek daug duomenų į kompiuterių grupę gali būti per daug laiko arba neįmanoma. Taigi koks yra atsakymas?


Vienas iš sprendimų yra apdoroti didelius duomenis vietoje, pavyzdžiui, saugyklų klasteriuose, padvigubintuose kaip skaičiavimo klasteriuose.


Taigi, kaip mes matėme aukščiau, dideli duomenys nepaiso tradicinio saugojimo. Taigi kaip mes tvarkome didelius duomenis?

Kaip „Hadoop“ išsprendžia didelių duomenų problemą

„Hadoop“ sukurtas paleisti mašinų grupę

Pradėkime nuo pavyzdžio. Tarkime, kad turime saugoti daug nuotraukų. Pradėsime nuo vieno disko. Kai viršijame vieną diską, galime naudoti kelis diskus, išdėstytus mašinoje. Kai maksimaliai išplatiname visus diskus viename kompiuteryje, turime įsigyti krūvą mašinų, kurių kiekviena turi krūvą diskų.


Būtent taip yra pastatytas „Hadoop“. „Hadoop“ yra sukurtas važiuoti mašinų grupe nuo pat judėjimo pradžios.



„Hadoop“ grupių mastelis yra horizontalus

Didesnę atminties ir skaičiavimo galią galima pasiekti pridedant daugiau mazgų į „Hadoop“ klasterį. Tai pašalina poreikį pirkti vis galingesnę ir brangesnę techninę įrangą.


„Hadoop“ gali tvarkyti nestruktūrizuotus / pusiau struktūruotus duomenis

„Hadoop“ neįdiegia saugomų duomenų schemos. Jis gali tvarkyti savavališką tekstą ir dvejetainius duomenis. Taigi „Hadoop“ gali lengvai suvirškinti visus nestruktūrizuotus duomenis.


„Hadoop“ grupės teikia saugojimą ir skaičiavimą

Pamatėme, kaip turint atskiras saugojimo ir apdorojimo grupes netinka dideli duomenys. Tačiau „Hadoop“ klasteriuose yra saugojimo ir paskirstytoji skaičiavimo įranga viename.

„Hadoop“ verslo pavyzdys

„Hadoop“ už didelius duomenis saugo didelius duomenis

Didelių duomenų saugojimas naudojant tradicinę saugyklą gali būti brangus. „Hadoop“ yra sukurtas atsižvelgiant į prekių aparatinę įrangą, todėl už protingas išlaidas jis gali užtikrinti gana didelę saugyklą. „Hadoop“ buvo naudojamas lauke petabitų mastu.


Viename Cloudera atliktame tyrime teigiama, kad įmonės paprastai išleidžia apie 25 000–50 000 USD už terabaitą per metus. Naudojant „Hadoop“, ši kaina sumažėja iki kelių tūkstančių dolerių už terabaitą per metus. Aparatūra tampa vis pigesnė, todėl šios išlaidos ir toliau mažėja.


„Hadoop“ leidžia surinkti naujų ar daugiau duomenų

Kartais organizacijos nefiksuoja tam tikro tipo duomenų, nes juos saugoti buvo per brangu. Kadangi „Hadoop“ teikia saugyklą už pagrįstą kainą, tokio tipo duomenis galima kaupti ir saugoti.


Vienas iš pavyzdžių būtų svetainės paspaudimų žurnalai. Kadangi šių žurnalų apimtis gali būti labai didelė, ne daugelis organizacijų juos užfiksavo. Dabar naudodami „Hadoop“ galite užfiksuoti ir saugoti žurnalus.


Naudodami „Hadoop“ galite duomenis saugoti ilgiau

Siekdamos valdyti saugomų duomenų kiekį, įmonės periodiškai išvalo senesnius duomenis. Pvz., Galėjo būti saugomi tik paskutinių trijų mėnesių žurnalai, o senesni žurnalai buvo ištrinti. Su Hadoop galima ilgiau saugoti istorinius duomenis. Tai leidžia atlikti naują senesnių istorinių duomenų analizę.


Pvz., Paimkite paspaudimų žurnalus iš svetainės. Prieš kelerius metus šie žurnalai buvo saugomi trumpą laiką, kad būtų galima apskaičiuoti tokius statistinius duomenis kaip populiarūs puslapiai. Dabar su „Hadoop“ šiuos paspaudimų žurnalus galima laikyti ilgesnį laiką.


„Hadoop“ teikia keičiamą analizę

Neįmanoma saugoti visų šių duomenų, jei negalime jų išanalizuoti. „Hadoop“ ne tik teikia paskirstytą saugyklą, bet ir paskirstytą apdorojimą, o tai reiškia, kad lygiagrečiai galime sutraiškyti didelį duomenų kiekį. Apskaičiuota „Hadoop“ sistema vadinama „MapReduce“. Įrodyta, kad „MapReduce“ yra petabaidų mastelis.


„Hadoop“ teikia turtingą analizę

Gimtoji „MapReduce“ palaiko „Java“ kaip pagrindinę programavimo kalbą. Taip pat gali būti naudojamos kitos kalbos, pavyzdžiui, „Ruby“, „Python“ ir „R“.


Žinoma, tinkinto „MapReduce“ kodo rašymas nėra vienintelis būdas analizuoti duomenis „Hadoop“. Galimas aukštesnio lygio žemėlapio sumažinimas. Pvz., Įrankis, pavadintas Pig, priima angliškai kaip duomenų srauto kalba ir verčia juos į „MapReduce“. Kitas įrankis - „Hive“ - priima SQL užklausas ir jas paleidžia naudodamas „MapReduce“.


Verslo intelekto (BI) įrankiai gali suteikti dar aukštesnį analizės lygį. Yra ir šio tipo analizės priemonių.


Šis turinys yra ištrauktas iš Marko Kerznerio ir Sujee Maniyamo „Hadoop Illuminated“. Jis buvo prieinamas per „Creative Commons“ priskyrimą - nekomercinį - „ShareAlike 3.0“ neperduotą licenciją.

Kaip hadoop padeda išspręsti didelių duomenų problemą