Qu'est-ce que le Data Drift en Machine Learning ?
Le Data Drift designe le changement de distribution des donnees en entree d'un modele de Machine Learning au fil du temps, pouvant degrader ses performances sans que le modele lui-meme ait change.
Le Data Drift (derive des donnees) est un phenomene ou la distribution statistique des donnees d'entree d'un modele de Machine Learning evolue par rapport aux donnees sur lesquelles il a ete entraine. Le modele reste identique, mais les donnees qu'il recoit en production ne ressemblent plus a celles qu'il a appris a traiter.
Pourquoi le Data Drift se produit
Les causes sont multiples et souvent liees a l'evolution naturelle de l'environnement :
- Changements de comportement utilisateur : les habitudes d'achat, de navigation ou de consommation evoluent avec les saisons, les tendances ou les crises economiques.
- Modifications des processus metier : un changement dans la politique de collecte de donnees, un nouveau formulaire client ou une migration de systeme modifient la forme des donnees.
- Evolution des sources externes : les API tierces changent de format, les fournisseurs de donnees modifient leurs methodes de calcul, les reglementations imposent de nouvelles contraintes.
- Problemes techniques : bugs dans les pipelines d'ingestion, changements de schema non documentes, erreurs de jointure entre tables.
Data Drift vs Concept Drift
Ces deux notions sont souvent confondues mais designent des phenomenes distincts :
- Data Drift (covariate shift) : la distribution des variables d'entree (features) change, mais la relation entre ces variables et la cible reste la meme. Exemple : un modele de scoring credit entraine sur des clients de 25-45 ans recoit soudainement des dossiers de clients de 18-25 ans.
- Concept Drift : la relation entre les variables d'entree et la variable cible change. Le "concept" que le modele a appris n'est plus valide. Exemple : pendant le COVID-19, les patterns de consommation ont change si radicalement que les modeles de prevision de ventes sont devenus obsoletes, meme si les donnees d'entree avaient le meme format.
En pratique, les deux phenomenes peuvent se produire simultanement, et distinguer l'un de l'autre necessite une analyse fine des metriques de monitoring.
Comment detecter le Data Drift
La detection repose sur des tests statistiques appliques aux distributions des features :
- Tests statistiques : test de Kolmogorov-Smirnov (KS) pour les variables continues, test du chi-deux pour les variables categorielles, Population Stability Index (PSI).
- Monitoring des distributions : comparaison des histogrammes et des statistiques descriptives (moyenne, variance, quantiles) entre les donnees d'entrainement et les donnees de production.
- Alertes sur les metriques modele : une degradation des performances (accuracy, precision, recall) peut signaler un drift sous-jacent, mais c'est un indicateur retarde.
Des outils de MLOps comme Evidently, Whylogs ou les modules de monitoring des cloud providers integrent ces mecanismes. Le ML Engineer est generalement responsable de la mise en place de ces pipelines de surveillance.
Comment reagir face au Data Drift
Plusieurs strategies existent, selon la severite et la nature du drift :
1. Reentrainement periodique : planifier des cycles de reentrainement reguliers (hebdomadaires, mensuels) pour que le modele s'adapte aux evolutions. C'est l'approche la plus courante, automatisee via des pipelines MLOps.
2. Reentrainement declenche : configurer des seuils d'alerte sur les metriques de drift et declencher un reentrainement automatique quand ils sont depasses.
3. Fenetre glissante : entrainer le modele uniquement sur les donnees les plus recentes, en abandonnant les donnees historiques devenues non representatives.
4. Analyse des causes racines : avant de reentrainer, comprendre pourquoi le drift s'est produit. Parfois, le probleme vient d'un bug dans le pipeline de donnees ou d'un changement de schema — et la solution n'est pas de reentrainer mais de corriger la source.
L'Error Analysis est une methode complementaire : elle permet d'identifier sur quels segments de donnees le modele se degrade le plus, et de cibler les actions correctives.
Lien avec la Data Governance
Le Data Drift est aussi un enjeu de Data Governance : documenter les schemas de donnees, versionner les datasets d'entrainement et maintenir un Data Lineage clair sont autant de pratiques qui facilitent la detection et la resolution des derives. Un Feature Store bien gere, en centralisant la definition et le calcul des features, reduit le risque de drift lie aux incoherences entre entrainement et production.
Le framework CRISP-ML integre explicitement la surveillance post-deploiement comme une phase du cycle de vie d'un modele, et le Data Drift en est l'un des indicateurs principaux.
Fait intéressant
Le Data Drift peut etre silencieux pendant des mois : un modele continue de produire des predictions avec une confiance elevee alors que ses performances reelles se degradent progressivement. C'est pourquoi les equipes MLOps parlent parfois de "model rot" (pourriture du modele) — un modele qui n'est pas surveille se degrade inevitablement.
Ces formations pourraient aussi vous intéresser
Prêt à accélérer votre Transformation ?
Nos experts vous accompagnent à chaque étape
de votre parcours Data & IA. Discutons ensemble de vos enjeux et objectifs.