Q:
Kaip duomenų grandymas, norint mokytis mašinų, tapo daugiausiai pastangų reikalaujančia kliūtimi, nes duomenų perkėlimas rankiniu būdu yra senas?
A:Viena iš praktinių problemų, su kuriomis įmonės gali susidurti bandydamos pradėti mašininio mokymosi (ML) projektą, yra iššūkis įsigyti pradinių mokymo duomenų rinkinių. Tai gali apimti daug darbo reikalaujančius procesus, tokius kaip žiniatinklio duomenų rinkimas ar kitas duomenų grandymas.
Sąvokos „interneto grandymas“ ir „duomenų grandymas“ iš esmės reiškia automatinę kompiuterio programinės įrangos veiklą, tačiau daugeliui ML projektų bus atvejų, kai kompiuteriai neturi rafinuotumo rinkti reikiamus tikslinius duomenis, todėl tai turės būti padaryta. "ranka." Tai galite pavadinti „žmonių žiniatinklio / duomenų rinkimu“ ir tai yra dėkingas darbas. Paprastai tai reiškia, kad reikia išeiti ir ieškoti duomenų ar vaizdų, kad „pamaitintų“ ML programą per treniruočių komplektus. Tai dažnai būna gana pasikartojanti, todėl darbas tampa nuobodus, vangus, reikalaujantis daug darbo.
Nemokamas atsisiuntimas: mašinų mokymasis ir kodėl tai svarbu |
ML treniruočių duomenų rinkimas yra vienintelis problematiškas mašinų mokymosi trūkumas, iš dalies todėl, kad daugelis kitų darbų yra labai konceptualūs ir nesikartojantys. Daugelis žmonių gali sugalvoti puikią naujos programos, kuri atlieka mašininio mokymosi užduotis, idėją, tačiau veržlės ir varžtai bei praktinis darbas gali būti daug sunkesnis. Visų pirma, treniruočių komplektavimo darbų pavedimas iš tikrųjų gali būti viena iš sunkiausių ML projekto dalių, kaip išsamiai išnagrinėta Mike'o Judge'o televizijos laidoje „Silicio slėnis“. Ketvirtoje sezono serijoje verslininkas, pradedantis verslininką, pirmiausia tyčiojasi iš partnerio, kad jis imtųsi daug darbo reikalaujančio darbo, tada bando jį perduoti kolegijos studentams, paslėpdamas jį kaip namų užduotį.
Šis pavyzdys yra pamokantis, nes parodo, koks nepatikimas ir, atrodo, nesvarbus yra rankinis duomenų grandymas. Tačiau tai taip pat rodo, kad šis procesas yra būtinas įvairiems mašininio mokymosi produktams. Nors dauguma žmonių nekenčia duomenų įvedimo, treniruočių rinkiniai turi būti tam tikru būdu surinkti. Proceso ekspertai dažnai rekomenduoja naudoti žiniatinklio duomenų rinkimo paslaugą - iš esmės tik perduoti šį labai daug darbo reikalaujantį darbą išorinėms šalims, tačiau tai gali turėti įtakos saugumui ir sukelti kitų problemų. Vykdydami rankinį duomenų rinkimą namuose, taip pat reikia numatyti, kad procesas, kuris dažnai būna labai rankinis ir reikalaujantis daug laiko.
Kai kuriais būdais „žmonių duomenų grandymas“ mašininiam mokymuisi atrodo kaip rankinis duomenų įvedimas, kurį kartais reikėjo atlikti atliekant migraciją. Debesis vis labiau populiarėjant, o įmonės įtraukdamos procesus ir darbo srautus į debesis, kai kurios nustatė, kad jie neįveikė praktinių aspektų, kaip gauti savo korporatyvinius duomenis iš izoliuotos senosios sistemos į debesies programas. Dėl to kai kurie žmonės, kurie kitaip buvo duomenų mokslininkai ar kūrybingi žmonės, turintys esminių IT įgūdžių, susidūrė su nemaloniomis duomenų įvedimo užduotimis.
Panašiai gali nutikti ir mokantis mašinų. Gali išgirsti duomenų mokslininką besiskundžiantį „aš kūrybingas žmogus“ arba „Aš esu vystymosi pusė“, bet kažkas turi atlikti nešvarų darbą.
Vėlgi, jei kūrybinis srautas nėra suderinamas su praktiniu darbo srautų delegavimo įvertinimu, tai neatitiktų to, kaip nukreipiamos užduotys. Kai įmonėje nėra žmonių, atliekančių duomenų grandymo darbus renkant duomenų rinkinius, jai trūksta pagrindinės sėkmingo projekto proceso grandinės dalies. Verta to atsiminti kiekvieną kartą, kai įmonė bando įgyvendinti idėją, paremtą naujų mašininio mokymosi programų kūrimu.
