Un token ou "jeton" représente une séquence de caractères courantes.
Par exemple, la chaîne « tokenization » est décomposée en « token » et « ization », tandis qu’un mot court et courant comme « la » est représenté comme un seul jeton. Notez que dans une phrase, le premier jeton de chaque mot commence généralement par un espace.
En règle générale, 1 token ou 1 jeton correspond à environ 4 caractères ou 0,75 mot pour un texte anglais.