Turinys:
Apibrėžimas - ką reiškia teksto duomenų gavyba?
Teksto duomenų gavyba apima tekstinio dokumento ar šaltinio šukavimą, kad būtų gauta vertinga struktūrizuota informacija. Tam reikalingos modernios analizės priemonės, kurios apdoroja tekstą, kad būtų galima išsiaiškinti konkrečius raktinius žodžius ar pagrindinius duomenų taškus iš to, kas laikoma santykinai neapdorotu ar nestruktūruotu formatu.
Teksto duomenų gavyba taip pat žinoma kaip teksto gavyba arba teksto analizė.
„Techopedia“ paaiškina teksto duomenų gavybą
Kasant teksto duomenis, inžinerinės sistemos naudoja tokius dalykus kaip taksonomijos ir leksinė analizė, kad nustatytų, kurios teksto dokumento dalys yra vertingos kaip iškasti duomenys. Statistiniai modeliai dažniausiai yra naudingi, ir sistemos taip pat gali naudoti euristiką arba algoritminius spėliones bandydamos nustatyti, kurios teksto dalys yra svarbios. Kitos kontrolės sistemos apima žymėjimą ir raktinių žodžių analizę, kai įrankiai ieško konkrečių daiktavardžių ar kitų žymų ir raktinių žodžių, kad išsiaiškintų, apie ką rašoma.
Kitas unikalus teksto gavybos komponentas dažnai vadinamas sentimentų analize. Atliekant sentimentų analizę, kuri paprastai yra daug sunkesnė nei statistinė analizė, analitinės priemonės bando išsiaiškinti, kokia nuotaika ar nuotaika yra už parašyto teksto, ir kitais aspektais, į ką ji nukreipta, labai subjektyviai ir intuityviai. Atsiradus dirbtinio intelekto įrankiams, jausmų analizėje padaryta daug pažangos, kad šiuolaikinis teksto duomenų gavyba yra ne tik kiekybinių nuorodų rinkimas ir apima aukšto lygio koncepcinių modelių pateikimą teksto gavybai, siekiant išsiaiškinti naujus ir unikalius būdus. kaupti vertingus duomenis.
