Qu'est-ce qu'un embedding en IA ?

Un embedding est une représentation numérique d'une donnée (texte, image, audio) sous forme de vecteur dans un espace mathématique. Les embeddings capturent le sens sémantique des données et mesurent la similarité entre elles, ce qui les rend indispensables au RAG et à la recherche sémantique.

Partager la définition

Un embedding est un vecteur -- une liste ordonnée de nombres -- qui représente une donnée dans un espace mathématique de haute dimension. L'idée fondamentale : transformer du contenu non structuré (un mot, une phrase, une image) en une représentation numérique où la proximité géométrique reflète la proximité sémantique.

Le principe : du sens aux nombres

Prenons un exemple concret. Le mot "roi" et le mot "reine" sont sémantiquement proches : ils désignent tous deux un monarque. Un modèle d'embedding va les transformer en vecteurs qui seront proches dans l'espace mathématique. À l'inverse, "roi" et "tomate" produiront des vecteurs éloignés.

Ce qui rend les embeddings puissants, c'est qu'ils capturent des relations plus subtiles. L'exemple classique, mis en évidence par les travaux de Tomas Mikolov chez Google en 2013 avec Word2Vec, montre que les opérations arithmétiques sur les vecteurs reflètent des relations sémantiques : vecteur("roi") - vecteur("homme") + vecteur("femme") donne un vecteur très proche de vecteur("reine").

Comment sont générés les embeddings

Les embeddings modernes sont produits par des réseaux de neurones entraînés sur de grandes quantités de données. Le modèle apprend à placer les concepts similaires près les uns des autres dans l'espace vectoriel.

Pour le texte :

  • Word2Vec (2013) : un des premiers modèles à produire des embeddings de mots de qualité. Entraîné sur des corpus de texte pour prédire les mots voisins.
  • Sentence-BERT (2019) : adapte l'architecture BERT pour produire des embeddings de phrases entières, pas juste de mots individuels.
  • text-embedding-ada-002 / text-embedding-3-small (OpenAI) : modèles commerciaux largement utilisés, produisant des vecteurs de 1 536 ou 3 072 dimensions.
  • Cohere Embed : alternative qui supporte nativement le multilangue.
  • BGE, E5, GTE : modèles open source performants, souvent en tête des benchmarks MTEB.

Pour les images et le multimodal :

  • CLIP (OpenAI, 2021) : projette texte et images dans le même espace vectoriel, permettant de chercher des images avec du texte et inversement.
  • ImageBind (Meta) : étend ce principe à six modalités (texte, image, audio, vidéo, profondeur, thermique).

Les dimensions d'un embedding

Un embedding est défini par son nombre de dimensions -- typiquement entre 384 et 3 072 pour les modèles textuels actuels. Plus il y a de dimensions, plus le modèle peut encoder de nuances sémantiques, mais au prix d'un stockage et d'un calcul plus importants.

Le choix du nombre de dimensions est un compromis entre précision et performance. Pour un prototype, un modèle à 384 dimensions comme all-MiniLM-L6-v2 suffit souvent. Pour de la production exigeante, des modèles à 1 536 ou 3 072 dimensions offrent une meilleure granularité.

Les mesures de similarité

Une fois les données transformées en vecteurs, on mesure leur proximité avec des métriques mathématiques :

  • Similarité cosinus : mesure l'angle entre deux vecteurs, indépendamment de leur longueur. C'est la métrique la plus utilisée pour les embeddings textuels.
  • Distance euclidienne : mesure la distance "en ligne droite" entre deux points. Utile quand la magnitude du vecteur porte de l'information.
  • Produit scalaire (dot product) : rapide à calculer, souvent utilisé quand les vecteurs sont normalisés.

Les cas d'usage concrets

Recherche sémantique. Au lieu de chercher des mots-clés exacts, on cherche par le sens. Un utilisateur qui tape "comment réduire le turnover" trouvera des documents parlant de "fidélisation des talents" ou de "rétention des collaborateurs".

RAG (Retrieval-Augmented Generation). Les embeddings sont la brique de base du RAG : on transforme les documents et la question en embeddings, on trouve les documents les plus proches dans une base de données vectorielle, puis on les injecte dans le contexte du LLM.

Classification et clustering. Regrouper automatiquement des tickets de support, des avis clients ou des articles par thème, sans définir de catégories à l'avance.

Détection d'anomalies. Identifier des contenus inhabituels en repérant les vecteurs isolés, éloignés de tous les clusters existants.

Systèmes de recommandation. Recommander des produits, articles ou contenus similaires à ce que l'utilisateur a déjà consulté.

Limites et points d'attention

Les embeddings ne sont pas sans limites. Ils héritent des biais présents dans les données d'entraînement. Ils peinent à capturer la négation ("ce film est bon" et "ce film n'est pas bon" peuvent produire des vecteurs proches). Et la qualité des embeddings dépend fortement du domaine : un modèle généraliste sera moins performant qu'un modèle fine-tuné sur des données métier spécifiques.

C'est pourquoi le context engineering intègre le choix et l'évaluation du modèle d'embedding comme une décision architecturale à part entière, au même titre que le choix du LLM.

Fait intéressant

L'équation "roi - homme + femme = reine", découverte par l'équipe de Tomas Mikolov chez Google en 2013 avec Word2Vec, a été l'un des premiers indices que les réseaux de neurones capturaient de véritables structures sémantiques, et pas seulement des corrélations statistiques.

Pour aller plus loin

Ces formations pourraient aussi vous intéresser

Prêt à accélérer votre Transformation ?

Nos experts vous accompagnent à chaque étape
de votre parcours Data & IA. Discutons ensemble de vos enjeux et objectifs.