Kazalo:
Opredelitev - Kaj pomeni tokenizacija?
Tokenizacija je dejanje razbijanja zaporedja nizov na koščke, kot so besede, ključne besede, stavki, simboli in drugi elementi, imenovani žetoni. Žetoni so lahko posamezne besede, besedne zveze ali celo celotni stavki. V procesu tokenizacije se nekateri znaki, kot so ločila, zavržejo. Žetoni postanejo vložek za drug postopek, kot sta razčlenjevanje in iskanje besed.
Tokenizacija se uporablja v računalništvu, kjer ima veliko vlogo v procesu leksikalne analize.
Tehopedija razlaga tokenizacijo
Tokenizacija se večinoma opira na preprosto hevristiko, da ločimo žetone z nekaj koraki:
- Žetoni ali besede so ločeni z belim prostorom, ločili ali lomi črte
- Beli razmik ali ločila lahko ostanejo ali ne bodo vključeni, odvisno od potrebe
- Vsi znaki v sorodnih strunah so del žetona. Žetone lahko sestavljajo vsi alfa-črki, alfanumerični znaki ali numerični znaki.
Tudi žetone so lahko ločilniki. Na primer, v večini programskih jezikov je mogoče identifikatorje postaviti skupaj z aritmetičnimi operaterji brez belih presledkov. Čeprav se zdi, da bi se to zdelo kot ena sama beseda ali žeton, slovnica jezika matematični operater (žeton) dejansko šteje za ločevalnik, zato tudi če je več žetonov združenih skupaj, jih je mogoče še vedno ločiti prek matematičnih operater.
