Consulter le glossaire à l’aide de cet index

Spécial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | Tout

E

Empreinte carbone

L’empreinte carbone ou le contenu carbone d'une activité humaine est une mesure des émissions de gaz à effet de serre d’origine anthropique, c’est-à-dire une mesure des émissions qui peuvent être imputées à cette activité humaine.

Sources : Wikipédia.


Espace latent

L'espace latent, dans le contexte des modèles d'intelligence artificielle et du machine learning, fait référence à une représentation abstraite et multidimensionnelle des données. C'est un concept clé dans la compréhension de comment les réseaux de neurones, y compris les modèles GPT (Generative Pre-trained Transformer), apprennent et stockent l'information.

Lorsqu'un modèle est entraîné, il apprend à transformer les données d'entrée, qui peuvent être très complexes et de haute dimension (comme des images, du texte ou des séquences sonores), en une forme plus simple et plus compacte dans un espace latent. Cet espace contient les caractéristiques essentielles des données d'entrée, mais représentées de manière plus abstraite et moins dimensionnelle.

Les modèles utilisent cet espace latent pour effectuer diverses tâches, comme la génération de nouvelles données qui ressemblent à celles sur lesquelles ils ont été entraînés, la classification, ou la compréhension et la génération de langage naturel. L'espace latent aide à capturer les relations sous-jacentes et les structures dans les données, permettant au modèle de généraliser à partir de ses apprentissages à de nouvelles données non vues pendant l'entraînement.

Dans le contexte des GPTs, l'espace latent permet de comprendre et de générer du texte de manière cohérente et pertinente, en capturant les nuances linguistiques, les contextes, les significations, et même les styles d'écriture à partir des données d'entraînement.


embeddings

La technique d'embedding, dans le contexte de l'intelligence artificielle et plus spécifiquement des modèles de langage comme ChatGPT, est une méthode essentielle pour traiter et comprendre de grandes quantités d'informations. 

Un embedding est une représentation dense de mots, phrases, paragraphes ou même documents entiers sous forme de vecteurs de faible dimension. 

Cette technique permet de capturer le sens, la sémantique et les relations entre les mots ou les phrases d'une manière que les ordinateurs peuvent efficacement traiter.

Cette méthode est cruciale pour permettre aux modèles de comprendre et de générer du texte de manière cohérente et pertinente.

Les embeddings mesurent la parenté des chaînes de texte. Les embeddings sont couramment utilisés pour : 

  • La recherche : où les résultats sont classés en fonction de leur pertinence par rapport à une chaîne de requête.
  • Le regroupement : lorsque les chaînes de texte sont regroupées en fonction de leur similarité.
  • Les recommandations : lorsque des éléments dont les chaînes de texte sont apparentées sont recommandés.
  • Détection d'anomalies : identification des valeurs aberrantes présentant peu de similitudes.
  • Mesure de la diversité : analyse des distributions de similarité.
  • La classification : les chaînes de texte sont classées en fonction de leur étiquette la plus similaire.

Un embedding est un vecteur (une liste) de nombres à virgule flottante. La distance entre deux vecteurs mesure leur parenté. Les petites distances indiquent une forte parenté et les grandes distances une faible parenté.

exemple d'embedding

Source de l'image : datascientest.com