Qu'est-ce que le Data Lineage ?
Le Data Lineage retrace le parcours complet des donnees au sein d'une organisation : leur origine, les transformations subies et les systemes traverses, de la source jusqu'a la consommation finale.
Le Data Lineage (lignee des donnees) est la capacite a tracer et documenter le parcours des donnees depuis leur source d'origine jusqu'a leur utilisation finale. Il repond a trois questions fondamentales : d'ou viennent les donnees, comment ont-elles ete transformees, et ou sont-elles consommees ?
Pourquoi le Data Lineage est indispensable
Sans Data Lineage, une organisation fait face a plusieurs problemes concrets :
- Debugging aveugle : quand un dashboard affiche un chiffre aberrant, les equipes passent des heures a remonter manuellement la chaine de transformation pour trouver l'erreur. Avec un lineage documente, la cause racine est identifiable en quelques minutes.
- Impact inconnu des changements : modifier un champ dans une table source peut casser des dizaines de rapports en aval. Le lineage permet d'evaluer l'impact d'un changement avant de le deployer.
- Non-conformite reglementaire : le RGPD et d'autres reglementations exigent de pouvoir expliquer comment les donnees personnelles sont traitees. Le Data Lineage fournit cette tracabilite.
- Manque de confiance : sans connaitre l'origine d'un indicateur, les equipes metier hesitent a s'appuyer dessus pour prendre des decisions.
Les differents niveaux de granularite
Le Data Lineage peut s'exprimer a plusieurs niveaux :
- Lineage au niveau des tables : quelles tables alimentent quelles autres tables. C'est le niveau le plus courant et le plus facile a obtenir.
- Lineage au niveau des colonnes : quelle colonne source alimente quelle colonne cible, avec quelles transformations. Plus precis mais plus couteux a maintenir.
- Lineage au niveau des valeurs : pour une valeur specifique dans un rapport, retracer exactement quelles lignes et quelles transformations ont produit ce resultat. Rarement implemente en totalite, mais necessaire pour certains cas d'audit.
Comment construire le Data Lineage
Plusieurs approches coexistent, souvent combinees :
- Lineage automatique par les outils de transformation : des outils comme dbt generent automatiquement le lineage au niveau des colonnes a partir des requetes SQL. C'est l'approche la plus fiable car elle est derivee directement du code.
- Lineage par instrumentation des pipelines : les orchestrateurs (Airflow, Dagster) et les moteurs de traitement (Spark) peuvent emettre des evenements de lineage via le standard OpenLineage.
- Lineage par scanning des metadonnees : des outils de catalogage (DataHub, Amundsen, Atlan, Collibra) scannent les bases de donnees, les entrepots et les outils BI pour reconstruire les relations.
- Lineage manuel : documentation humaine, souvent dans un wiki ou un catalogue. Peu fiable a grande echelle car rapidement obsolete.
Outils et ecosysteme
L'ecosysteme du Data Lineage s'est structure autour de quelques categories :
- Catalogues de donnees : DataHub (open source, LinkedIn), Amundsen (open source, Lyft), Atlan, Alation, Collibra. Ils combinent catalogue, lineage et documentation.
- Standard OpenLineage : initiative open source qui definit un format commun pour les evenements de lineage, permettant l'interoperabilite entre outils.
- Outils de transformation : dbt integre nativement le lineage dans son DAG (Directed Acyclic Graph), rendant visible la chaine de transformation SQL.
Data Lineage et Data Governance
Le Data Lineage est un composant technique de la Data Governance. Il materialise la tracabilite que la gouvernance exige : savoir qui a acces a quelles donnees, comment elles sont transformees, et ou elles sont consommees.
Pour un Data Steward, le lineage est un outil de travail quotidien : il permet de valider que les regles de qualite sont appliquees aux bons endroits, que les donnees sensibles sont correctement masquees tout au long de la chaine, et que les Data Contracts entre producteurs et consommateurs sont respectes.
Dans une architecture Data Mesh, le lineage prend une dimension supplementaire : il doit traverser les frontieres des domaines et montrer comment les Data Products d'un domaine alimentent ceux d'un autre. La Data Platform en self-service doit fournir cette visibilite de maniere automatisee.
Cas d'usage concrets
- Analyse d'impact : avant de deprecier une table, identifier tous les dashboards, modeles ML et rapports qui en dependent.
- Root cause analysis : un KPI chute de 15% — remonter le lineage pour identifier si le probleme vient des donnees sources, d'une transformation ou d'un changement de definition.
- Conformite RGPD : repondre a une demande de droit d'acces en identifiant tous les systemes ou les donnees d'un individu sont stockees et traitees.
- Onboarding : un nouvel Analytics Engineer peut comprendre rapidement comment les donnees circulent dans l'organisation en explorant le lineage.
Fait intéressant
Le concept de lineage des donnees est emprunte a la biologie, ou il designe la lignee d'un organisme — l'arbre genealogique qui retrace ses ancetres. En data, le principe est le meme : chaque donnee a une "genealogie" qui explique comment elle a ete produite.
Ces formations pourraient aussi vous intéresser
Prêt à accélérer votre Transformation ?
Nos experts vous accompagnent à chaque étape
de votre parcours Data & IA. Discutons ensemble de vos enjeux et objectifs.