Q:
Ar dideliuose duomenyse gali būti per daug duomenų?
A:Atsakymas į klausimą yra skambus TAIP. Dideliame duomenų projekte gali būti per daug duomenų.
Yra daugybė būdų, kuriais tai gali atsitikti, ir įvairių priežasčių, kodėl specialistams reikia riboti ir saugoti duomenis įvairiais būdais, norint gauti tinkamus rezultatus. (Perskaitykite 10 didelių mitų apie didelius duomenis.)
Apskritai ekspertai kalba apie modelio „signalo“ ir „triukšmo“ atskyrimą. Kitaip tariant, didelių duomenų jūroje tampa sunku pritaikyti svarbius įžvalgos duomenis. Kai kuriais atvejais jūs ieškote adatos šieno kupetoje.
Pvz., Tarkime, kad įmonė bando naudoti didelius duomenis, kad gautų konkrečias įžvalgas apie klientų bazės segmentą ir jų pirkimus per tam tikrą laiko tarpą. (Perskaitykite Ką daro dideli duomenys?)
Įsigiję didžiulį kiekį duomenų, galite gauti atsitiktinius duomenis, kurie nėra svarbūs, arba net gali sukelti šališkumą, kuris nukreipia duomenis viena ar kita kryptimi.
Tai taip pat smarkiai sulėtina procesą, nes skaičiavimo sistemos turi kovoti su vis didesniais ir didesniais duomenų rinkiniais.
Daugybėje skirtingų projektų rūšių duomenų inžinieriams labai svarbu saugoti duomenis prie ribotų ir specifinių duomenų rinkinių - aukščiau pateiktu atveju tai būtų tik to tiriamo klientų segmento duomenys, tik to meto duomenys tiriamas rėmas ir metodas, panaikinantis papildomus identifikatorius ar foninę informaciją, kuri gali supainioti dalykus ar sulėtinti sistemas. („ReadJob“ vaidmuo: duomenų inžinierius.)
Norėdami sužinoti daugiau, pažvelkime, kaip tai veikia mašininio mokymosi srityje. (Perskaitykite mašinų mokymąsi 101.)
Mašinų mokymosi ekspertai kalba apie tai, kas vadinama „pertekliniu pritaikymu“, kai pernelyg sudėtingas modelis lemia ne tokius efektyvius rezultatus, kai mašinų mokymosi programa yra atleidžiama nuo naujų gamybos duomenų.
Per didelis įrengimas įvyksta, kai sudėtingas duomenų taškų rinkinys per gerai atitinka pradinį mokymo rinkinį ir neleidžia programai lengvai prisitaikyti prie naujų duomenų.
Dabar techniškai perteklių sukelia ne per daug duomenų pavyzdžių, bet per daug duomenų taškų karūnavimas. Tačiau galite teigti, kad turėdami per daug duomenų, taip pat gali būti veiksnys, prisidedantis prie šios rūšies problemų. Dimensijos prakeikimas susijęs su tais pačiais būdais, kurie buvo daromi ankstesniuose didžiųjų duomenų projektuose, nes profesionalai bandė tiksliai nustatyti, kas jiems tiekia IT sistemas.
Esmė ta, kad dideli duomenys įmonėms gali būti nepaprastai naudingi arba gali tapti dideliu iššūkiu. Vienas aspektas yra tas, ar įmonė turi tinkamus duomenis. Ekspertai žino, kad nepatartina tiesiog įmesti visą duomenų atsargą į kaupiklį ir tokiu būdu sugalvoti įžvalgų - naujose debesies vietinėse ir moderniose duomenų sistemose stengiamasi kontroliuoti ir valdyti bei saugoti duomenis, kad būtų tikslesni ir saugesni duomenys. efektyvus duomenų išteklių panaudojimas.
