Turinys:
Apibrėžimas - ką reiškia „Tokenization“?
Ženklinimas yra stygų sekos suskaidymas į dalis, pvz., Žodžius, raktinius žodžius, frazes, simbolius ir kitus elementus, vadinamus žetonais. Žetonai gali būti atskiri žodžiai, frazės ar net ištisi sakiniai. Ženklinimo metu kai kurie simboliai, pavyzdžiui, skyrybos ženklai, yra atmetami. Prieigos raktai tampa kito proceso, pavyzdžiui, analizės ir teksto gavybos, įvestimi.
Ženklinimas yra naudojamas informatikoje, kur ji vaidina didelę reikšmę leksinės analizės procese.
„Techopedia“ paaiškina „Tokenization“
Ženklų atskyrimas dažniausiai priklauso nuo paprastos euristikos, kad būtų galima atskirti žetonus atlikus kelis veiksmus:
- Žetonai ar žodžiai yra atskirti tarpais, skyrybos ženklais ar eilučių pertraukomis
- Priklausomai nuo poreikio, tarpas arba skyrybos ženklai gali būti neįtraukti
- Visi simboliai gretimose eilutėse yra ženklo dalis. Žetonai gali būti sudaryti iš visų raidžių, tik iš raidžių ir skaitmenų arba tik iš skaitmenų.
Patys žetonai taip pat gali būti atskyrėjai. Pavyzdžiui, daugelyje programavimo kalbų identifikatoriai gali būti dedami kartu su aritmetiniais operatoriais be baltų tarpelių. Nors atrodo, kad tai atrodytų kaip vienas žodis ar žetonas, kalbos gramatika iš tikrųjų matematikos operatorių (žetoną) laiko separatoriumi, todėl net ir sudėjus kelis žetonus, jie vis tiek gali būti atskirti naudojant matematinį operatorius.
