Qu'est-ce qu'un knowledge graph ?
Un knowledge graph (graphe de connaissances) est une structure de données qui organise l'information sous forme d'entités reliées par des relations sémantiques. Utilisé pour structurer les connaissances d'une organisation, il connaît un regain d'intérêt avec l'IA générative et le GraphRAG.
Un knowledge graph (graphe de connaissances) est une représentation structurée de l'information où des entités (personnes, concepts, produits, événements) sont reliées entre elles par des relations typées et sémantiquement explicites. Contrairement à une base de données relationnelle où les relations sont implicites (via des clés étrangères), un knowledge graph fait des relations des objets de première classe, navigables et interrogeables.
Anatomie d'un knowledge graph
Un knowledge graph repose sur une structure simple : des triplets (sujet, prédicat, objet). Par exemple :
- (Paris, est-la-capitale-de, France)
- (Claude, est-développé-par, Anthropic)
- (Data Mesh, est-une-approche-de, data governance)
Chaque entité peut avoir des attributs (propriétés) et chaque relation peut porter des métadonnées (date, source, niveau de confiance). Cette structure en graphe permet de naviguer de proche en proche et de découvrir des connexions non évidentes dans des données tabulaires.
Un concept mature revitalisé par l'IA
Le concept de knowledge graph n'est pas nouveau. Google a lancé son Knowledge Graph en 2012 pour enrichir les résultats de recherche avec des fiches structurées (les encadrés qui s'affichent à droite des résultats). Wikidata, DBpedia et d'autres projets ont suivi la même logique : structurer la connaissance du monde sous forme de graphe.
Ce qui a changé avec l'IA générative, c'est l'usage des knowledge graphs. Ils ne servent plus seulement à alimenter des moteurs de recherche ou des systèmes de recommandation. Ils deviennent une brique pour fiabiliser les LLM.
Knowledge graph et RAG : le GraphRAG
Le RAG classique récupère des documents par recherche vectorielle : on cherche les passages sémantiquement proches de la question dans une base de données vectorielle. Cette approche fonctionne bien pour des questions factuelles simples, mais atteint ses limites pour des questions qui nécessitent de relier des informations dispersées.
Le GraphRAG combine le RAG avec un knowledge graph. Au lieu de chercher uniquement des passages similaires, le système navigue dans le graphe pour trouver les entités et relations pertinentes, puis les injecte dans le contexte du LLM. Microsoft Research a publié en 2024 des travaux montrant que le GraphRAG améliore significativement les réponses sur des questions nécessitant de synthétiser des informations provenant de sources multiples.
Par exemple, pour la question "quels clients de notre secteur bancaire ont déployé des solutions de data governance ?", un RAG classique chercherait des passages contenant ces mots-clés. Un GraphRAG naviguerait dans le graphe : secteur bancaire → clients du secteur → projets de ces clients → projets liés à la data governance.
Construction d'un knowledge graph
Construire un knowledge graph se fait de deux façons complémentaires :
Approche manuelle (curated). Des experts du domaine définissent l'ontologie (les types d'entités et de relations) et alimentent le graphe. C'est l'approche la plus fiable mais la plus coûteuse. Elle convient aux domaines où la précision est non négociable (médical, juridique, finance).
Approche automatisée (extraction). Des modèles de NLP extraient automatiquement des entités et des relations à partir de documents textuels. Les LLM ont considérablement amélioré cette extraction : on peut leur demander d'identifier les entités, leurs attributs et leurs relations dans un texte, puis structurer le tout en triplets. La qualité reste inférieure à l'approche manuelle, mais le passage à l'échelle est bien meilleur.
En pratique, les deux approches se combinent : une ontologie de base définie par des experts, enrichie automatiquement par extraction, avec une validation humaine sur les éléments critiques.
Technologies de graphe
Plusieurs technologies supportent les knowledge graphs :
- Neo4j : la base de données graphe la plus répandue, avec le langage de requête Cypher.
- Amazon Neptune : service managé AWS pour les graphes.
- Apache TinkerPop / Gremlin : standard open source pour la traversée de graphes.
- RDF / SPARQL : standards du W3C pour les données liées, utilisés par Wikidata et les graphes académiques.
Application en entreprise
En entreprise, les knowledge graphs sont utilisés pour :
- La gestion des connaissances : cartographier l'expertise, les projets et les relations entre équipes.
- Le data lineage : tracer l'origine et les transformations des données dans une data platform.
- La conformité réglementaire : documenter les liens entre processus, données et obligations (RGPD, AI Act).
- L'enrichissement des chatbots : fournir aux agents IA une connaissance structurée du domaine métier.
Le knowledge graph s'inscrit dans une logique de data governance structurée : il rend explicites les liens entre les données, ce qui facilite la documentation, l'audit et la réutilisation.
Fait intéressant
Le Knowledge Graph de Google, lancé en 2012, contenait 570 millions d'entités et 18 milliards de relations à son lancement. Quand un utilisateur cherche "Albert Einstein", la fiche structurée qui s'affiche (date de naissance, publications, prix Nobel) provient directement de ce graphe.
Ces formations pourraient aussi vous intéresser
Prêt à accélérer votre Transformation ?
Nos experts vous accompagnent à chaque étape
de votre parcours Data & IA. Discutons ensemble de vos enjeux et objectifs.