Hymaïa Datadictionary | Qu'est-ce que le context engineering ?

Partager la définition

Termes similaires

Le context engineering désigne l'ensemble des pratiques visant à concevoir et optimiser le contexte fourni aux grands modèles de langage (LLM) pour maximiser la qualité de leurs réponses. Si le prompt engineering se concentre sur la formulation d'une instruction, le context engineering embrasse un périmètre bien plus large : il s'agit de déterminer quelles informations le modèle reçoit, dans quel ordre, sous quelle forme, et à quel moment.

Du prompt engineering au context engineering

Le prompt engineering a constitué la première approche pour interagir efficacement avec les LLM. Rédiger un bon prompt -- avec des exemples, des consignes de format, un rôle -- reste utile. Mais cette approche atteint ses limites dès que l'on dépasse le cas d'usage conversationnel simple.

En production, un système d'IA ne se résume pas à un prompt statique. Il doit intégrer des documents internes, l'historique des interactions, des résultats d'appels d'API, des préférences utilisateur, voire des sorties d'autres modèles. C'est là que le context engineering prend le relais : il orchestre toutes ces sources pour construire un contexte pertinent à chaque requête.

Andrej Karpathy, ancien directeur de l'IA chez Tesla, a contribué à populariser cette distinction en soulignant que la performance d'un système LLM dépend moins de la qualité du modèle que de la qualité du contexte qu'on lui fournit.

Les composantes du context engineering

Le context engineering s'articule autour de plusieurs mécanismes complémentaires :

La sélection d'informations pertinentes. Plutôt que de tout envoyer au modèle, on sélectionne dynamiquement les éléments nécessaires. C'est le principe du RAG (Retrieval-Augmented Generation), où un système de recherche identifie les documents pertinents dans une base de données vectorielle avant de les injecter dans le contexte du LLM.

La gestion de la mémoire. Un LLM n'a pas de mémoire native entre les sessions. Le context engineering définit comment stocker, résumer et rappeler les interactions passées. On distingue généralement la mémoire à court terme (conversation en cours), la mémoire à moyen terme (résumé des échanges récents) et la mémoire à long terme (préférences et faits durables stockés dans une base de données).

La structuration du contexte. L'ordre et le format des informations influencent directement la qualité des réponses. Les études montrent que les LLM accordent plus d'attention aux informations placées en début et en fin de contexte (effet "lost in the middle"). Le context engineering prend en compte ces biais pour organiser les informations de manière optimale.

L'orchestration des sources. Dans un système agentique, le contexte peut provenir de multiples sources : bases de données, API, fichiers, sorties d'autres agents. Le context engineering définit les règles de priorité, de filtrage et d'agrégation entre ces sources. Le protocole MCP (Model Context Protocol) d'Anthropic s'inscrit dans cette logique en standardisant la façon dont les outils externes fournissent du contexte aux modèles.

Pourquoi le context engineering change la donne

La fenêtre de contexte des LLM a considérablement augmenté -- de 4 000 tokens pour GPT-3.5 à plus de 200 000 tokens pour Claude 3.5 et au-delà pour certains modèles récents. Mais une fenêtre plus grande ne signifie pas qu'on doive la remplir sans discernement. Au contraire, plus le contexte est grand, plus la qualité de sa curation devient déterminante.

Un context engineering rigoureux permet de :

Réduire les hallucinations en fournissant au modèle les informations factuelles dont il a besoin, plutôt que de le laisser "inventer" des réponses.
Améliorer la pertinence en adaptant le contexte au cas d'usage spécifique et au profil de l'utilisateur.
Maîtriser les coûts en évitant d'envoyer des tokens inutiles, ce qui réduit la latence et la facture.
Fiabiliser les systèmes agentiques en s'assurant que chaque agent dispose du bon contexte pour prendre des décisions pertinentes.

Le context engineering en pratique

Concrètement, un AI Product Manager ou un ingénieur IA qui fait du context engineering va se poser des questions comme :

Quelles données le modèle doit-il recevoir pour cette tâche ?
Comment récupérer ces données en temps réel (RAG, API, cache) ?
Comment gérer la limite de tokens sans perdre d'information critique ?
Quel format (texte brut, JSON, markdown) optimise la compréhension du modèle ?
Comment versionner et tester le contexte comme on versionne du code ?

Cette discipline est au cœur du travail des équipes qui déploient des LLM en production, qu'il s'agisse de chatbots, de copilots métier ou de systèmes multi-agents. Elle s'intègre naturellement dans les pratiques de LLMOps, où le contexte est traité comme un artefact à part entière, versionné, testé et monitoré.

Liens avec l'écosystème IA

Le context engineering se situe à l'intersection de plusieurs disciplines connexes. Il s'appuie sur le RAG pour la récupération d'informations, sur les bases de données vectorielles pour le stockage des embeddings, et sur l'IA agentique pour l'orchestration multi-sources. Le fine-tuning constitue une approche complémentaire : là où le context engineering agit sur les entrées du modèle, le fine-tuning modifie le modèle lui-même. En pratique, les deux approches se combinent.

Fait intéressant

Andrej Karpathy a proposé de remplacer le terme "prompt engineering" par "context engineering" pour refléter la réalité du travail en production : le prompt ne représente souvent que 10 à 20 % du contexte total envoyé au modèle, le reste étant constitué de données récupérées dynamiquement.

Qu'est-ce que le context engineering ?