Namai Garsas „Hadoop“ analizė: ne taip paprasta keliuose duomenų šaltiniuose

„Hadoop“ analizė: ne taip paprasta keliuose duomenų šaltiniuose

Turinys:

Anonim

„Hadoop“ yra puiki vieta krauti duomenis analitiniam apdorojimui arba modeliuoti didesnius vieno duomenų šaltinio kiekius, kurie negalimi esamose sistemose. Tačiau kadangi bendrovės teikia duomenis iš daugelio šaltinių į „Hadoop“, didėja poreikis analizuoti duomenis iš įvairių šaltinių, o tai gali būti nepaprastai sunku. Šis įrašas yra pirmas iš trijų dalių serijos, paaiškinančios problemas, su kuriomis susiduria organizacijos, bandydamos išanalizuoti įvairius duomenų šaltinius ir tipus „Hadoop“ ir kaip išspręsti šiuos iššūkius. Šiandienos įraše daugiausia dėmesio skiriama problemoms, kylančioms derinant kelis vidinius šaltinius. Kiti du įrašai paaiškina, kodėl šios problemos tampa vis sudėtingesnės, nes pridedami išoriniai duomenų šaltiniai, ir kaip nauji metodai padeda jas išspręsti.

Duomenys iš skirtingų šaltinių, kuriuos sunku sujungti ir žemėlapiuoti

Įvairių šaltinių duomenys turi skirtingas struktūras, dėl kurių sunku susieti ir susieti duomenų tipus, net ir duomenis iš vidinių šaltinių. Sujungti duomenis gali būti ypač sunku, jei klientai turi kelis sąskaitų numerius arba organizacija įsigijo ar susijungė su kitomis įmonėmis. Per pastaruosius kelerius metus kai kurios organizacijos mėgino naudoti duomenų aptikimo ar duomenų mokslo programas analizuoti duomenis iš kelių Hadoop saugomų šaltinių. Šis požiūris yra problematiškas, nes apima daug spėlionių: vartotojai turi nuspręsti, kuriuos užsienio raktus naudoti, kad sujungtų įvairius duomenų šaltinius, ir daryti prielaidas kuriant duomenų modelio perdangas. Šiuos spėliones sunku patikrinti ir dažnai jie klaidingi, jei jie taikomi mastu, todėl klaidinga duomenų analizė ir nepasitikėjimas šaltiniais.

„Hadoop“ ekspertai bando sujungti duomenis kartu

Todėl organizacijos, norinčios analizuoti duomenis iš visų duomenų šaltinių, ėmė samdyti „Hadoop“ ekspertus, kad sukurtų pasirinktinius, šaltiniui būdingus scenarijus, kurie sujungtų duomenų rinkinius. Šie „Hadoop“ ekspertai paprastai nėra duomenų integravimo ar subjektų sprendimo ekspertai, tačiau jie daro viską, ką gali, kad patenkintų tiesioginius organizacijos poreikius. Šie ekspertai paprastai naudoja „Pig“ ar „Java“ rašydami griežtas ir greitas taisykles, kurios nustato, kaip derinti struktūrinius duomenis iš konkrečių šaltinių, pvz., Suderinti įrašus pagal sąskaitos numerį. Parašius dviejų šaltinių scenarijus, jei reikia pridėti trečiąjį šaltinį, pirmasis scenarijus turi būti išmestas ir naujas scenarijus skirtas sujungti tris konkrečius šaltinius. Tas pats nutinka, jei pridedamas kitas šaltinis ir pan. Šis metodas ne tik neefektyvus, bet ir nesėkmingas, kai taikomas mastu, prastai tvarko kraštų bylas, gali sukelti daugybę įrašų dublikatų ir dažnai sujungia daugybę įrašų, kurių nereikėtų derinti.

„Hadoop“ analizė: ne taip paprasta keliuose duomenų šaltiniuose