Turinys:
- Įtraukite visus verslo skyrius į didžiųjų duomenų iniciatyvą
- Ar įvertinkite visus didelių duomenų diegimo infrastruktūros modelius
- Planuodami didelius duomenis atsižvelkite į tradicinius duomenų šaltinius
- Apsvarstykite nuoseklų duomenų rinkinį
- Paskirstykite duomenis
- Niekada nepasikliaukite vienu didelių duomenų analizės metodu
- Nepradėkite didelių didelių duomenų iniciatyvos, kol nebūsite pasiruošę
- Nenaudokite duomenų atskirai
- Neignoruokite duomenų saugumo
- Neignoruokite didžiųjų duomenų analizės našumo dalies
Didelės apimties duomenys žada daug žvilgsnį į visas pramonės rūšis. Jei šie dideli duomenys bus panaudoti efektyviai ir efektyviai, tai gali turėti didelę įtaką priimant sprendimus ir analizuojant. Tačiau didžiųjų duomenų naudą galima pasiekti tik tuo atveju, jei jie tvarkomi sistemingai. Pamažu nustatoma geriausia didžiųjų duomenų praktika, tačiau įgyvendinant jau yra keletas aiškių dalykų, kuriuos reikia ir ko nereikia daryti.
Šios rekomendacijos yra pagrįstos praktine patirtimi ir žiniomis, surinktomis iš realaus gyvenimo projektų. Čia yra mano svarbiausi didieji duomenys, kuriuos reikia ir ko nereikia daryti.
Įtraukite visus verslo skyrius į didžiųjų duomenų iniciatyvą
Didžiųjų duomenų iniciatyva nėra atskira ir savarankiška veikla, o norint gauti tikrą vertę ir įžvalgą, būtina įtraukti visus verslo padalinius. Dideli duomenys gali padėti organizacijoms panaudoti didelius duomenų kiekius ir įgyti žinių apie klientų elgesį, įvykius, tendencijas, prognozes ir kt. Tai neįmanoma naudojant duomenų momentinį vaizdą, kuriame užfiksuota tik dalis viso duomenų, apdorotų dideliais duomenimis, apimties. Todėl įmonės vis daugiau dėmesio skiria visų rūšių duomenims, gaunamiems iš visų galimų būdų / verslo padalinių, kad suprastų teisingą modelį.Ar įvertinkite visus didelių duomenų diegimo infrastruktūros modelius
Bet kurios didžiųjų duomenų iniciatyvos pagrindinis rūpestis yra duomenų kiekis ir jų valdymas. Kadangi dideli duomenys yra susiję su duomenų petabaitais, vienintelis sprendimas juos valdyti yra duomenų centrų naudojimas. Tuo pačiu metu prieš pasirenkant ir baigiant bet kurią saugyklą, reikia atsižvelgti į išlaidų komponentą. Debesies paslaugos dažnai yra geriausias pasirinkimas, tačiau norint įvertinti tinkamą, reikia įvertinti skirtingų debesų aplinkų paslaugas. Kadangi saugojimas yra vienas iš svarbiausių komponentų įgyvendinant bet kokius didelius duomenis, tai yra veiksnys, kuris turėtų būti labai atidžiai įvertinamas bet kurioje didžiųjų duomenų iniciatyvoje. (Gaukite kitą požiūrį į šių dienų „Big Data Challenge“ segmentus iš įvairovės, o ne pagal tūrį ar greitį.)Planuodami didelius duomenis atsižvelkite į tradicinius duomenų šaltinius
Yra įvairių didelių duomenų šaltinių, o šaltinių skaičius taip pat didėja kiekvieną dieną. Šis didžiulis duomenų kiekis naudojamas kaip įvestis į didelių duomenų apdorojimą. Dėl to kai kurios bendrovės mano, kad tradiciniai duomenų šaltiniai nenaudingi. Tai netiesa, nes šie tradiciniai duomenys yra kritinis bet kokios didelės apimties duomenų sėkmės komponentas. Tradiciniuose duomenyse yra vertingos informacijos, todėl jie turėtų būti naudojami kartu su kitais didžiųjų duomenų šaltiniais. Tikroji didelių duomenų vertė gali būti nustatyta tik atsižvelgus į visus duomenų šaltinius (tradicinius ir netradicinius). (Sužinokite daugiau skyrelyje „Imk tai, dideli duomenys! Kodėl„ Small Data “gali supakuoti didesnį perforatorių)Apsvarstykite nuoseklų duomenų rinkinį
Didelėje duomenų aplinkoje duomenys gaunami iš įvairių šaltinių. Duomenų formatas, struktūra ir tipai skirtinguose šaltiniuose skiriasi. Svarbiausia yra tai, kad duomenys nebus išvalyti, kai kalbama apie jūsų didžiųjų duomenų aplinką. Taigi, prieš pasitikėdami gaunamus duomenis, turite patikrinti jų nuoseklumą pakartodami stebėjimą ir analizę. Patvirtinus duomenų nuoseklumą, juos galima traktuoti kaip nuoseklų metaduomenų rinkinį. Atidžiai stebint modelį, reikia surasti nuoseklų metaduomenų rinkinį, nes tai yra būtina užduotis planuojant didelius duomenis.Paskirstykite duomenis
Duomenų apimtis kelia didžiausią susirūpinimą, kai atsižvelgiame į duomenų tvarkymo aplinką. Dėl didžiulės duomenų apimties, su kuria susiduriama dideliais duomenimis, apdoroti viename serveryje neįmanoma. Sprendimas yra „Hadoop“ aplinka, kuri yra paskirstytoji skaičiavimo aplinka, veikianti su prekių aparatūra. Tai suteikia greitesnio apdorojimo keliuose mazguose galią. (Sužinokite daugiau iš 7 dalykų, kuriuos reikia žinoti apie „Hadoop“.)Niekada nepasikliaukite vienu didelių duomenų analizės metodu
Rinkoje yra įvairių technologijų, skirtų apdoroti didelius duomenis. Visų didžiųjų duomenų technologijų pagrindas yra „Apache Hadoop“ ir „MapReduce“. Todėl svarbu įvertinti, ar teisinga technologija yra tinkama. Kai kurie svarbūs analizės metodai yra numatomoji analizė, receptinė analizė, teksto analizė, srauto duomenų analizė ir kt. Norint pasiekti norimą tikslą, svarbu pasirinkti tinkamą metodą / požiūrį. Geriausia vengti pasikliauti vienu požiūriu, tačiau ištirti įvairius požiūrius ir pasirinkti geriausią variantą, kuris tinka jūsų sprendimui.Nepradėkite didelių didelių duomenų iniciatyvos, kol nebūsite pasiruošę
Bet kokią didžiųjų duomenų iniciatyvą visada rekomenduojama pradėti nuo mažų žingsnių. Taigi pradėkite nuo bandomųjų projektų, kad įgytumėte patirties, ir tada pradėkite realų įgyvendinimą. Didelių duomenų potencialas yra labai įspūdingas, tačiau tikrąją vertę galima pasiekti tik tada, kai sumažinsime savo klaidas ir įgysime daugiau žinių.Nenaudokite duomenų atskirai
Dideli duomenų šaltiniai yra išsibarstę aplink mus ir jų daugėja kiekvieną dieną. Svarbu integruoti visus šiuos duomenis, kad gautumėte teisingą analizės išvestį. Duomenų integravimo rinkoje yra įvairių priemonių, tačiau prieš naudojimą jos turėtų būti tinkamai įvertintos. Didelių duomenų integracija yra sudėtinga užduotis, nes duomenys iš skirtingų šaltinių yra skirtingo formato, tačiau to labai reikia norint gauti gerą analizės rezultatą.Neignoruokite duomenų saugumo
Duomenų saugumas yra pagrindinis dalykas planuojant didelius duomenis. Iš pradžių (prieš atliekant bet kokį apdorojimą) duomenys yra petatuose, todėl saugumas nėra griežtai įgyvendinamas. Bet šiek tiek apdoroję gausite duomenų pogrupį, kuris suteikia tam tikros informacijos. Šiuo metu duomenų saugumas tampa labai svarbus. Kuo daugiau duomenų tvarkomi ir tikslinami, tuo vertingesni jie dažnai tampa organizacijai. Šie patobulinti išvesties duomenys yra intelektinė nuosavybė ir turi būti apsaugoti. Duomenų saugumas turi būti įgyvendintas kaip didžiojo duomenų gyvenimo ciklo dalis.Neignoruokite didžiųjų duomenų analizės našumo dalies
Didelių duomenų analizė yra naudinga tik tada, kai jos našumas yra geras. Didelės apimties duomenys suteikia daugiau įžvalgų, pagrįstų didesnio duomenų kiekio apdorojimu greitesniu greičiu. Todėl labai svarbu tai valdyti efektyviai ir efektyviai. Jei didelių duomenų našumas nebus valdomas kruopščiai, tai sukels problemų ir visos pastangos taps beprasmės.
Diskusijoje mes sutelkėme dėmesį į tai, ko reikia ir ko nereikia daryti didžiųjų duomenų iniciatyvoms. Dideli duomenys yra nauja sritis, o įgyvendinant daug įmonių vis dar yra planavimo etape. Būtina suprasti geriausią duomenų apie didelę patirtį praktiką, kad būtų sumažinta rizika ir klaidos. Diskusijų taškai buvo sukaupti iš gyvos projekto patirties, todėl joje bus pateiktos gairės, kaip sėkmingai įgyvendinti didžiųjų duomenų strategiją.
