Turinys:
- Kiek naudojami dideli duomenys
- Kur yra tikroji vertė?
- Kartais smulki informacija daro didesnį (ir pigesnį) poveikį
Dideli duomenys yra bendras žodis, naudojamas žymėti didelio masto duomenų tvarkymą. Visi suprantame, kad kuo didesnė duomenų apimtis, tuo sudėtingesnė ji tampa. Tradiciniai duomenų bazių sprendimai dažnai nesugeba tinkamai valdyti didelių duomenų kiekių dėl jų sudėtingumo ir dydžio. Todėl valdyti didelius duomenų kiekius ir gauti realią įžvalgą yra sudėtinga užduotis. Ta pati „vertės“ sąvoka taikoma ir mažiems duomenims.
Kiek naudojami dideli duomenys
Įprasti duomenų bazių sprendimai, pagrįsti RDBMS koncepcija, gali labai gerai valdyti operacijų duomenis ir yra plačiai naudojami įvairiose programose. Bet kai reikia tvarkyti didelį duomenų rinkinį (duomenys, kurie yra archyvuoti ir yra terabaitais ar pebaitais), šie duomenų bazių sprendimai dažnai sugenda. Šie duomenų rinkiniai yra per dideli ir dažniausiai neatitinka tradicinių duomenų bazių architektūros. Šiomis dienomis dideli duomenys tapo ekonomiškai efektyviu būdu tvarkant didesnius duomenų rinkinius. Organizaciniu požiūriu stambiųjų duomenų naudojimas gali būti suskirstytas į šias kategorijas, kuriose didžiosios duomenų tikrosios vertės yra:- Analitinis naudojimas
Didžiųjų duomenų analitikai atskleidė daug svarbių paslėptų duomenų aspektų, kuriuos apdoroti yra per brangu. Pavyzdžiui, jei turime patikrinti studentų susidomėjimą tam tikra nauja tema, mes galime tai padaryti analizuodami dienos lankomumo įrašus ir kitus socialinius bei geografinius faktus. Šie faktai fiksuojami duomenų bazėje. Jei negalime efektyviai pasiekti šių duomenų, nematome rezultatų.
- Įgalinti naujus produktus
Neseniai praeityje daug naujų interneto bendrovių, tokių kaip „Facebook“, pradėjo naudoti didelius duomenis kaip sprendimą išleisti naujus produktus. Visi žinome, koks populiarus yra „Facebook“ - jis sėkmingai paruošė didelio našumo vartotojo patirtį naudodamas didelius duomenis.
Kur yra tikroji vertė?
Skirtingi didžiųjų duomenų sprendimai skiriasi tuo, kokiu būdu jie saugo duomenis, tačiau galų gale visi jie saugo duomenis plokščioje failų struktūroje. Apskritai „Hadoop“ sudaro failų sistema ir kai kurios operacinės sistemos lygio duomenų abstrakcijos. Tai apima „MapReduce“ variklį ir „Hadoop“ paskirstytų failų sistemą (HDFS). Paprastas „Hadoop“ klasteris apima vieną pagrindinį mazgą ir kelis darbuotojo mazgus. Pagrindinį mazgą sudaro:- Užduočių stebėjimo priemonė
- Darbo stebėtojas
- Vardas mazgas
- Duomenų mazgas
- Užduočių stebėjimo priemonė
- Duomenų mazgas
Kai kurie diegimai turi tik duomenų mazgą. Duomenų mazgas yra faktinė sritis, kurioje yra duomenys. HDFS saugo didelius failus (nuo terabaitų iki petabaitų), paskirstytus keliose mašinose. Duomenų apie kiekvieną mazgą patikimumas pasiekiamas pakartojant duomenis visuose pagrindiniuose kompiuteriuose. Taigi, duomenys yra prieinami net tada, kai vienas iš mazgų neveikia. Tai padeda greičiau pasiekti atsakymus į klausimus. Ši koncepcija yra labai naudinga, kai naudojamos didžiulės programos, tokios kaip „Facebook“. Kaip vartotojas, pavyzdžiui, beveik iškart gauname atsakymą į savo pokalbių užklausą. Apsvarstykite scenarijų, kai vartotojas turi ilgai laukti, kol kalbasi. Jei žinutė ir vėlesnis atsakymas nebus pristatyti iškart, kiek žmonių iš tikrųjų naudosis šiomis pokalbių priemonėmis?
Grįžtant prie „Facebook“ diegimo, jei duomenys nebus pakartojami per grupes, tai nebus įmanoma patraukliai. „Hadoop“ paskirsto duomenis mašinoms didesnėje klasteryje ir saugo failus kaip blokų seką. Šie blokai yra vienodo dydžio, išskyrus paskutinį. Bloko dydį ir replikacijos koeficientą galima pritaikyti pagal poreikį. HDFS failai griežtai laikosi vienkartinio rašymo principo, todėl juos vienu metu gali rašyti ar taisyti tik vienas vartotojas. Sprendimus dėl blokų pakartojimo priima vardo mazgas. Vardinis mazgas gauna ataskaitas ir impulsų atsakymus iš kiekvieno duomenų mazgo. Impulsų atsakymai užtikrina atitinkamo duomenų mazgo prieinamumą. Ataskaitoje pateikiama išsami informacija apie duomenų mazgo blokus.
Kitas didelis duomenų diegimas - „Cassandra“ - taip pat naudoja panašią paskirstymo koncepciją. „Cassandra“ platina duomenis pagal geografinę vietą. Taigi „Cassandra“ duomenys yra atskirti atsižvelgiant į duomenų naudojimo geografinę vietą.
Kartais smulki informacija daro didesnį (ir pigesnį) poveikį
Kaip teigia Atvirų žinių fondo Rufusas Pollockas, nėra prasmės kurti didžiųjų duomenų hipotezę, o maži duomenys vis dar yra ta vieta, kur slypi tikroji vertė.
Kaip rodo pavadinimas, maži duomenys yra duomenų rinkinys, nukreiptas iš didesnio duomenų rinkinio. Maži duomenys ketina pakeisti dėmesį nuo duomenų naudojimo, be to, jais siekiama užkirsti kelią didžiųjų duomenų perdavimui. Mažų duomenų metodas padeda rinkti duomenis pagal konkrečius reikalavimus, naudojant mažiau pastangų. Dėl to efektyvesnė verslo praktika įgyvendinant verslo informaciją.
Esmė - mažų duomenų samprata sukasi aplink verslą, kuriam reikia rezultatų, dėl kurių reikia imtis tolesnių veiksmų. Šiuos rezultatus reikia greitai atkurti, o tolesni veiksmai taip pat turėtų būti atlikti nedelsiant. Taigi, mes galime pašalinti sistemas, kurios paprastai naudojamos didžiųjų duomenų analizėje.
Apskritai, jei atsižvelgsime į kai kurias specifines sistemas, reikalingas dideliems duomenims kaupti, įmonė gali investuoti į daugybės serverių saugojimo įrengimą, naudoti sudėtingesnius aukščiausios klasės serverius ir naujausias duomenų gavybos programas, kad galėtų tvarkyti įvairius duomenų bitus., įskaitant naudotojų veiksmų datas ir laikus, demografinę informaciją ir kitą informaciją. Visas duomenų rinkinys perkeliamas į centrinį duomenų saugyklą, kur naudojami sudėtingi algoritmai, skirti rūšiuoti ir apdoroti duomenis, kad būtų rodomi išsamių ataskaitų forma.
Visi žinome, kad šie sprendimai buvo naudingi daugeliui verslo sričių, atsižvelgiant į mastelį ir prieinamumą; yra organizacijų, kurios mano, kad norint įgyvendinti šiuos metodus reikia didelių pastangų. Taip pat tiesa, kad kai kuriais atvejais panašūs rezultatai pasiekiami naudojant mažiau patikimą duomenų gavybos strategiją.
Maži duomenys suteikia organizacijoms būdą atsitraukti nuo apsėstos naujausios ir naujausios technologijos, palaikančios sudėtingesnius verslo procesus. Įmonės, reklamuojančios mažus duomenis, teigia, kad verslo požiūriu svarbu efektyviai naudoti savo išteklius, kad tam tikru mastu būtų galima išvengti per didelių išlaidų technologijoms.
Mes daug diskutavome apie didžiųjų ir mažųjų duomenų realumą, tačiau turime suprasti, kad teisingos platformos (didelių ar mažų duomenų) tinkamam naudojimui pasirinkimas yra svarbiausia viso pratimo dalis. Ir tiesa ta, kad dideli duomenys gali suteikti daug naudos, tačiau ne visada tai yra geriausia.
