Namai Tendencijos Kas yra paprastas būdas apibūdinti mašininio mokymosi šališkumą ir skirtumus?

Kas yra paprastas būdas apibūdinti mašininio mokymosi šališkumą ir skirtumus?

Anonim

Q:

Kas yra paprastas būdas apibūdinti mašininio mokymosi šališkumą ir skirtumus?

A:

Yra daugybė sudėtingų būdų, kaip apibūdinti mašininio mokymosi šališkumą ir skirtumus. Daugelis jų naudoja žymiai sudėtingas matematines lygtis ir grafike parodo, kaip konkretūs pavyzdžiai parodo įvairius šališkumo ir dispersijos dydžius.

Čia yra paprastas būdas apibūdinti šališkumą, dispersiją ir šališkumo / dispersijos kompromisą mašininio mokymosi metu.

Esmė: šališkumas yra perdėtas supaprastinimas. Gali būti svarbu prie šališkumo apibrėžimo pridėti tam tikras prielaidas ar tariamą klaidą.

Jei labai šališkas rezultatas nebuvo klaidos - jei jis buvo susijęs su pinigais - jis būtų labai tikslus. Problema ta, kad supaprastintame modelyje yra tam tikrų klaidų, todėl to nėra akivaizdoje - reikšminga klaida nuolat kartojasi ar net sustiprėja, kai veikia mašininio mokymosi programa.

Paprastas dispersijos apibrėžimas yra tas, kad rezultatai yra per daug išsklaidyti. Dėl to programa dažnai būna sudėtinga ir kyla problemų tarp testų ir treniruočių rinkinių.

Didelis dispersija reiškia, kad maži pokyčiai sukuria didelius rezultatų ar rezultatų pokyčius.

Kitas būdas tiesiog apibūdinti dispersiją yra tai, kad modelyje yra per daug triukšmo, todėl mašinų mokymosi programai sunkiau atskirti ir identifikuoti tikrąjį signalą.

Taigi vienas paprasčiausių šališkumo ir dispersijos palyginimo būdų yra pasiūlyti, kad mašinas mokantys inžinieriai turi nueiti tikslią liniją tarp per daug šališkumo ar perdėto supaprastinimo ir per daug dispersijos ar per didelio kompleksiškumo.

Kitas būdas parodyti šį šulinį yra keturių kvadrantų diagrama, rodanti visus didelio ir mažo dispersijos derinius. Žemo nuokrypio / mažo dispersijos kvadrante visi rezultatai sudedami į tikslią grupę. Jei rezultatas yra didelis šališkumas / mažas dispersija, visi rezultatai yra surinkti į netikslią grupę. Esant mažam šališkumui / dideliam dispersijos rezultatui, rezultatai yra išsibarstę po centrinį tašką, kuris atspindėtų tikslų klasterį, o esant dideliam šališkumui / dideliam dispersijai, duomenų taškai yra išsibarstę ir bendrai netikslūs.

Kas yra paprastas būdas apibūdinti mašininio mokymosi šališkumą ir skirtumus?