Turinys:
Visi kalba apie „Hadoop“ - tai nauja karšta technologija, kuri yra labai vertinama kūrėjų ir tiesiog gali pakeisti pasaulį (vėl). Bet kaip ten bebūtų? Ar tai programavimo kalba? Duomenų bazę? Apdorojimo sistema? Indiška arbata jauki?
Platus atsakymas: Hadoop yra visi šie dalykai (išskyrus jaukią arbatą) ir dar daugiau. Tai programinės įrangos biblioteka, teikianti programavimo pagrindus pigiam, naudingam kito modernaus žodžio: didelių duomenų, apdorojimui.
Iš kur atsirado Hadoopas?
„Apache Hadoop“ yra ne pelno organizacijos „Apache Software Foundation“ fondo projekto dalis, kurio misija yra „aprūpinti programinę įrangą visuomenės labui“. „Hadoop“ biblioteka yra nemokama atvirojo kodo programinė įranga, prieinama visiems kūrėjams.
Pagrindinę „Hadoop“ valdžiusią technologiją iš tikrųjų išrado „Google“. Ankstyvosiomis dienomis ne visai milžiniškajai paieškos varikliui reikėjo būdo, kaip indeksuoti didžiulius duomenų, kuriuos jie rinko iš interneto, kiekius ir paversti juos reikšmingais, vartotojams svarbiais rezultatais. Kadangi rinkoje nėra nieko, kas atitiktų jų reikalavimus, „Google“ sukūrė savo platformą.
Šios naujovės buvo išleistos atvirojo kodo projekte, pavadintame „Nutch“, kurį Hadoop vėliau panaudojo kaip pagrindą. Iš esmės „Hadoop“ naudoja „Google“ galią dideliems duomenims tokiu būdu, kuris prieinamas bet kokio dydžio įmonėms.
Kaip veikia Hadoop?
Kaip minėta anksčiau, „Hadoop“ nėra vienas dalykas - tai daugybė dalykų. Programinės įrangos biblioteką, kuri yra „Hadoop“, sudaro keturios pagrindinės dalys (moduliai) ir keletas papildomų sprendimų (pvz., Duomenų bazių ir programavimo kalbų), kurie pagerina jos naudojimą realiame pasaulyje. Keturi moduliai yra šie:- „Hadoop Common“: tai yra bendrųjų paslaugų rinkinys (bendroji biblioteka), palaikantis „Hadoop“ modulius.
- „Hadoop“ paskirstytųjų failų sistema (HDFS): tvirta paskirstytų failų sistema be jokių apribojimų saugomiems duomenims (tai reiškia, kad duomenys gali būti tiek struktūruoti, tiek nestruktūruoti ir be schemų, kai daugelis DFS kaups tik struktūrizuotus duomenis), užtikrinanti didelę pralaidą prieigai atleidžiant ( HDFS leidžia duomenis saugoti keliuose kompiuteriuose - taigi, jei vienas kompiuteris sugenda, pasiekiamumas išlaikomas per kitus aparatus).
- „Hadoop YARN“: Ši sistema yra atsakinga už darbo planavimą ir grupių išteklių valdymą; tai užtikrina, kad duomenys būtų pakankamai paskirstyti keliose mašinose, kad būtų išlaikytas perteklius. YARN yra modulis, dėl kurio „Hadoop“ yra prieinamas ir ekonomiškas būdas apdoroti didelius duomenis.
- „Hadoop MapReduce“: Ši sistema „YARN“, pagrįsta „Google“ technologija, vykdo lygiagretų didelių duomenų rinkinių (struktūrizuotų ir nestruktūruotų) apdorojimą. „MapReduce“ taip pat galima rasti daugelyje šiuolaikinių duomenų apdorojimo sistemų, įskaitant MPP ir „NoSQL“ duomenų bazes.
Aparatūra, galinti valdyti reikiamą duomenų apdorojimo galią dirbant su dideliais duomenimis, yra švelniai tariant, brangi. Tai yra tikroji „Hadoop“ naujovė: galimybė padalinti didžiulį perdirbimo galios kiekį keliuose mažesniuose kompiuteriuose, kiekviename iš jų yra savo lokalizuotas skaičiavimas ir saugojimas, kartu su įmontuotu atleidimu programos lygiu, kad būtų išvengta gedimų.
Ką daro Hadoopas?
Paprasčiau tariant, „Hadoop“ daro didelius duomenis prieinamus ir tinkamus naudoti visiems.
Iki „Hadoop“ įmonės, kurios naudojo didelius duomenis, dažniausiai tai darė su reliacinėmis duomenų bazėmis ir įmonių duomenų saugyklomis (kuriose naudojama didžiulė brangios aparatinės įrangos apimtis). Nors šios priemonės yra puikios struktūrizuotų duomenų tvarkymui - tai yra duomenys, kurie jau yra surūšiuoti ir tvarkomi tvarkingai, - nestruktūrizuotų duomenų apdorojimo galimybės buvo labai ribotos, tiek, kad jų praktiškai nebuvo. Kad duomenys būtų tinkami naudoti, jie pirmiausia turėjo būti susisteminti taip, kad jie tiksliai tilptų į lenteles.
„Hadoop“ sistema keičia šį reikalavimą ir tai daro pigiai. Naudojant „Hadoop“, didelius duomenų kiekius nuo 10 iki 100 gigabaitų ir daugiau, tiek struktūrizuotus, tiek nestruktūrizuotus, galima apdoroti naudojant įprastus (prekių) serverius.
„Hadoop“ teikia potencialias didelių duomenų programas bet kokio dydžio įmonėms kiekvienoje pramonėje. Atvirojo kodo sistema leidžia finansų įmonėms kurti sudėtingesnius portfelio įvertinimo ir rizikos analizės modelius arba internetiniams mažmenininkams patikslinti paieškos atsakymus ir nukreipti klientus į produktus, kuriuos jie labiau linkę pirkti.
Naudojant „Hadoop“, galimybės yra tikrai beribės.
