Token

Un token ou "jeton" représente une séquence de caractères courantes. 

Par exemple, la chaîne « tokenization » est décomposée en « token » et « ization », tandis qu’un mot court et courant comme « la » est représenté comme un seul jeton. Notez que dans une phrase, le premier jeton de chaque mot commence généralement par un espace.

En règle générale, 1 token ou 1  jeton correspond à environ 4 caractères ou 0,75 mot pour un texte anglais.

Capture écran du tokenizer : permet de connaître le nombre de token.
* une couleur = un token


Sources : OpenAI

» Terme IA