Qu'est-ce que l'architecture Transformer ?

L'architecture Transformer est un type de réseau de neurones basé sur le mécanisme d'attention, introduit par Google en 2017. Elle constitue le fondement technique de tous les grands modèles de langage actuels (GPT, Claude, Llama, Mistral) et a transformé le traitement du langage naturel.

Voir nos formations

Partager la définition

Termes similaires

L'architecture Transformer est un modèle de réseau de neurones conçu pour traiter des séquences de données (texte, code, images) en s'appuyant sur un mécanisme appelé attention. Présentée dans le papier "Attention Is All You Need" publié par des chercheurs de Google en juin 2017, cette architecture a remplacé les approches précédentes (réseaux récurrents, LSTM) et sert de fondation à la quasi-totalité des LLMs actuels.

Le mécanisme d'attention

Le coeur du Transformer est le mécanisme de self-attention (auto-attention). Pour chaque mot (ou plus précisément chaque token) d'une séquence, le modèle calcule un score d'attention avec tous les autres tokens de la séquence. Ce score détermine à quel point chaque token doit "faire attention" aux autres pour comprendre le contexte.

Exemple concret : dans la phrase "Le chat qui était sur le toit a sauté", quand le modèle traite le mot "a sauté", le mécanisme d'attention lui permet d'identifier que le sujet est "chat" (et non "toit"), même si plusieurs mots les séparent. Les architectures précédentes (RNN, LSTM) traitaient les tokens séquentiellement et perdaient cette information sur les longues distances.

Le Transformer utilise une variante appelée multi-head attention : plutôt qu'un seul calcul d'attention, le modèle effectue plusieurs calculs en parallèle (les "têtes"), chacun capturant un type de relation différent (syntaxique, sémantique, positionnelle). Les résultats sont ensuite combinés.

Architecture encodeur-décodeur

Le Transformer original comprend deux parties :

L'encodeur. Il prend une séquence en entrée et produit une représentation numérique riche de chaque token, enrichie par le contexte de tous les autres tokens. BERT (Google, 2018) utilise uniquement un encodeur — il excelle en compréhension de texte (classification, extraction d'entités).

Le décodeur. Il génère une séquence de sortie token par token, en utilisant à la fois l'attention sur les tokens déjà générés et (optionnellement) l'attention sur la sortie de l'encodeur. Les modèles GPT d'OpenAI utilisent uniquement un décodeur — ils excellent en génération de texte.

Les LLMs modernes (GPT-4, Claude, Llama, Mistral) sont tous des modèles "decoder-only" : ils fonctionnent uniquement avec la partie décodeur, entraînée à prédire le token suivant dans une séquence. Cette approche, plus simple architecturalement, s'est révélée étonnamment puissante quand on augmente la taille du modèle et des données d'entraînement.

Pourquoi le Transformer a tout changé

Parallélisation. Contrairement aux réseaux récurrents qui traitent les tokens un par un (séquentiellement), le Transformer traite tous les tokens d'une séquence simultanément lors de l'entraînement. Cela permet d'exploiter massivement les GPU modernes et d'entraîner des modèles sur des corpus gigantesques en un temps raisonnable.

Scalabilité. L'architecture se comporte remarquablement bien quand on augmente sa taille (nombre de paramètres), la quantité de données d'entraînement et la puissance de calcul. Cette propriété, formalisée sous le nom de "lois d'échelle" (scaling laws) par les chercheurs d'OpenAI en 2020, est la raison pour laquelle les modèles sont passés de millions à des centaines de milliards de paramètres.

Gestion du contexte long. Le mécanisme d'attention permet théoriquement à chaque token de "voir" tous les autres tokens de la séquence, quel que soit leur distance. C'est ce qui permet les fenêtres de contexte larges (128K tokens pour GPT-4, 200K pour Claude) et rend possible le RAG et d'autres techniques d'augmentation contextuelle.

Les composants techniques

Au-delà de l'attention, le Transformer comprend plusieurs mécanismes :

Embeddings positionnels : le modèle n'a pas de notion naturelle d'ordre des mots (contrairement aux RNN). Des vecteurs de position sont ajoutés aux embeddings de chaque token pour encoder sa place dans la séquence.
Feed-forward networks : après chaque couche d'attention, un réseau de neurones classique traite chaque token indépendamment, ajoutant de la capacité de représentation.
Layer normalization : une technique de stabilisation qui permet d'empiler de nombreuses couches (GPT-4 en compterait plus de 100) sans que l'entraînement diverge.
Tokenization : le texte brut est d'abord découpé en tokens par un tokenizer (BPE, SentencePiece) avant d'être traité par le Transformer.

Variantes et évolutions

L'architecture originale de 2017 a donné naissance à de nombreuses variantes :

Sparse attention : au lieu de calculer l'attention entre tous les tokens (coût quadratique), seul un sous-ensemble de paires est considéré, réduisant le coût computationnel.
Flash Attention : optimisation de l'implémentation du calcul d'attention pour mieux utiliser la hiérarchie mémoire des GPU, développée par Tri Dao à Stanford.
Mixture of Experts (MoE) : plutôt qu'un seul réseau feed-forward, plusieurs "experts" spécialisés sont disponibles et un routeur sélectionne les plus pertinents pour chaque token. Mistral (avec Mixtral) et vraisemblablement GPT-4 utilisent cette approche.

Au-delà du texte

L'architecture Transformer s'est étendue bien au-delà du traitement du langage naturel. Vision Transformers (ViT) l'appliquent aux images, DALL-E et Stable Diffusion l'utilisent pour la génération d'images, et les modèles multimodaux (GPT-4o, Gemini) traitent texte, images et audio dans une architecture Transformer unifiée.

Fait intéressant

Le titre du papier fondateur — "Attention Is All You Need" — est devenu l'un des titres les plus cités de l'histoire de l'informatique, avec plus de 130 000 citations. Les huit auteurs originaux ont tous quitté Google depuis : plusieurs ont fondé des startups d'IA (Cohere, Adept, Essential AI, Sakana AI), illustrant l'ampleur de l'impact de cette seule architecture.

Pour aller plus loin

Ces formations pourraient aussi vous intéresser

Voir toutes les formations

Prêt à accélérer votre Transformation ?

Nos experts vous accompagnent à chaque étape
de votre parcours Data & IA. Discutons ensemble de vos enjeux et objectifs.

Demander un devis

Nous rejoindre