Q:
Kodėl maišant mašinas mažėja dispersija?
A:Įkrovos kaupimas arba „maišų kaupimas“ mašininio mokymosi metu sumažina dispersiją sukuriant sudėtingesnių duomenų rinkinių sudėtingesnius modelius. Konkrečiai tariant, maišų kaupimo metodas sukuria pogrupius, kurie dažnai sutampa, kad modeliuotų duomenis labiau.
Viena įdomi ir aiški mintis apie tai, kaip maišyti, yra paimti atsitiktinių imčių rinkinį ir išgauti paprastą vidurkį. Tada, naudodamiesi tuo pačiu pavyzdžių rinkiniu, sukurkite dešimtis pogrupių, sudarytų kaip sprendimų medžiai, kad būtų galima manipuliuoti galimais rezultatais. Antrasis vidurkis turėtų parodyti tikslesnį vaizdą, kaip tie atskiri pavyzdžiai yra susiję vienas su kitu vertės atžvilgiu. Tą pačią idėją galima pritaikyti bet kuriai bet kurio duomenų taškų rinkinio savybei.
Nemokamas atsisiuntimas: mašinų mokymasis ir kodėl tai svarbu |
Kadangi šis metodas sutelkia atradimą į labiau apibrėžtas ribas, jis sumažina dispersiją ir padeda perpildyti. Pagalvokite apie „scatterplot“ su šiek tiek paskirstytais duomenų taškais; naudodami pakavimo metodą, inžinieriai „susitraukia“ iš sudėtingumo ir orientuoja atradimo linijas į sklandesnius parametrus.
Kai kas kalba apie maišų vertę kaip „dalinkis ir užkariauk“ arba „palaikomosios euristikos“ rūšį. Idėja yra ta, kad modeliuodami ansamblius, pavyzdžiui, naudodami atsitiktinius miškus, tie, kurie naudoja maišus kaip techniką, gali gauti mažesnio dispersinio duomenų rezultatus. Dėl supaprastinimo maišai taip pat gali padėti perpildyti. Pagalvokite apie modelį, kuriame yra per daug duomenų taškų: tarkime, sujungimo taškus su 100 nesuderintų taškų. Gauta vaizdinių duomenų linija bus nelygi, dinamiška, nepastovi. Tada „išlyginkite“ dispersiją sudarydami įvertinimų rinkinius. Mokant ansamblio, dažnai galvojama apie kelių „silpnų besimokančiųjų“ sujungimą, kad būtų pasiektas „stipraus mokymosi“ bendradarbiavimo rezultatas. Rezultatas yra lygesnė, labiau kontūruota duomenų linija ir mažiau laukinių modelio dispersijų.
Nesunku pastebėti, kaip maišelių idėją galima pritaikyti įmonės IT sistemose. Verslo vadovai dažnai nori „pažvelgti iš paukščio skrydžio“ į tai, kas vyksta su produktais, klientais ir tt. Perpildytas modelis gali grąžinti mažiau suvirškinamus duomenis ir daugiau „išsibarsčiusius“ rezultatus, kai maišai gali „stabilizuoti“ modelį ir padaryti jį naudingesnį. galutiniams vartotojams.
