Qu'est-ce que le GraphRAG ?

Le GraphRAG combine les knowledge graphs et le RAG pour permettre aux LLMs de raisonner sur des relations complexes entre entités. En structurant les données sous forme de graphe avant la récupération, cette approche améliore les réponses aux questions nécessitant plusieurs sauts logiques.

Partager la définition

Le GraphRAG (Graph-based Retrieval-Augmented Generation) est une technique qui enrichit l'architecture RAG classique en y intégrant des knowledge graphs. Là où le RAG standard découpe des documents en fragments et les retrouve par similarité sémantique via des embeddings, le GraphRAG structure d'abord les informations sous forme de graphe de connaissances, puis exploite cette structure pour améliorer la pertinence des réponses générées par un LLM.

Le problème que résout le GraphRAG

Le RAG classique fonctionne bien pour des questions simples dont la réponse se trouve dans un ou deux passages de texte. Mais il atteint ses limites face aux questions dites "multi-hop" — celles qui nécessitent de combiner des informations dispersées dans plusieurs documents et de suivre des chaînes de relations entre entités.

Exemple concret : "Quels sont les fournisseurs communs entre nos projets les plus rentables ?" Pour répondre, il faut d'abord identifier les projets rentables, puis retrouver leurs fournisseurs respectifs, puis croiser ces listes. Un système RAG par similarité vectorielle aura du mal à assembler ces éléments, car aucun passage isolé ne contient la réponse complète.

Comment fonctionne le GraphRAG

Le processus se décompose en plusieurs étapes :

1. Extraction d'entités et de relations. Un LLM analyse les documents source pour identifier les entités (personnes, organisations, concepts, produits) et les relations qui les lient. Ces éléments sont structurés sous forme de triplets (entité A — relation — entité B).

2. Construction du knowledge graph. Les triplets sont assemblés dans un graphe où chaque noeud représente une entité et chaque arête une relation. Ce graphe peut être stocké dans une base de données spécialisée (Neo4j, Amazon Neptune) ou en mémoire.

3. Détection de communautés. Des algorithmes de clustering (comme l'algorithme de Leiden) regroupent les noeuds fortement connectés en communautés thématiques. Pour chaque communauté, un résumé est généré automatiquement par le LLM.

4. Récupération hybride. À la réception d'une question, le système combine plusieurs stratégies de récupération : recherche sémantique classique via embeddings, traversée du graphe pour suivre les relations entre entités, et consultation des résumés de communautés pour les questions globales.

5. Génération augmentée. Le LLM reçoit à la fois les passages pertinents et le contexte structuré du graphe, ce qui lui permet de produire des réponses plus complètes et mieux fondées.

L'apport de Microsoft Research

Microsoft Research a formalisé l'approche GraphRAG dans un papier publié en 2024, accompagné d'une implémentation open source. Leur contribution principale est la distinction entre deux types de requêtes : les requêtes locales (qui concernent des entités spécifiques et leurs voisins dans le graphe) et les requêtes globales (qui nécessitent une vue d'ensemble sur tout le corpus). Pour les requêtes globales, les résumés de communautés permettent de couvrir l'ensemble du corpus sans dépasser les limites de contexte du LLM.

Comparaison avec le RAG classique

| Aspect | RAG classique | GraphRAG |

|--------|--------------|----------|

| Structure des données | Chunks de texte plats | Graphe d'entités et relations |

| Recherche | Similarité vectorielle | Traversée de graphe + vecteurs |

| Questions multi-hop | Limité | Performant |

| Questions globales | Limité (pas de vue d'ensemble) | Résumés de communautés |

| Coût d'indexation | Modéré | Plus élevé (extraction par LLM) |

| Explicabilité | Faible (quel chunk a été utilisé ?) | Forte (chemin dans le graphe) |

Cas d'usage

Le GraphRAG est particulièrement adapté aux situations où les données présentent des relations complexes entre entités : bases de connaissances d'entreprise, documentation technique interconnectée, données réglementaires (où un article renvoie à d'autres textes), ou encore analyse de réseaux (supply chain, organigrammes).

Dans le contexte de la data governance, le GraphRAG peut exploiter un graphe de data lineage pour répondre à des questions sur l'origine et l'impact des données. Combiné à des guardrails pour contrôler la qualité des réponses, il constitue une brique robuste pour les systèmes d'IA d'entreprise.

Limites et considérations

Le coût d'indexation est significativement plus élevé qu'un RAG classique, car l'extraction d'entités et de relations mobilise un LLM sur l'ensemble du corpus. La qualité du graphe dépend directement de la qualité de cette extraction. Par ailleurs, la maintenance du graphe lorsque les documents évoluent reste un défi d'ingénierie non trivial.

Fait intéressant

Dans les benchmarks de Microsoft Research, le GraphRAG a amélioré de 70 % la qualité des réponses aux questions nécessitant une compréhension globale d'un corpus, par rapport au RAG vectoriel classique — précisément les questions où les utilisateurs métier attendent le plus de valeur.

Pour aller plus loin

Ces formations pourraient aussi vous intéresser

Prêt à accélérer votre Transformation ?

Nos experts vous accompagnent à chaque étape
de votre parcours Data & IA. Discutons ensemble de vos enjeux et objectifs.