CRISP-ML (ou CRISP-ML(Q)) est une proposition de standardisation des processus de développement d’un modèle de Machine Learning tout au long de son cycle de vie. C’est une méthodologie structurée pour guider les différentes étapes de réalisation d’un modèle de Machine Learning, de la compréhension du problème à la mise en production. Le prisme de lecture de cette approche est celui du Quality Engineering (d’où le Q).

Les étapes de CRISP-ML sont les suivantes :

  1. Compréhension du problème : Avant de plonger dans les données, il est essentiel de bien comprendre le problème à résoudre, les objectifs du projet et les critères de succès.
  2. Compréhension des données : Cette étape consiste à collecter, explorer et comprendre les données disponibles. Elle implique des analyses descriptives, la vérification de la qualité des données et la détection d'éventuelles anomalies. (NB : Cette étape est généralement fusionnée avec la précédente dans la littérature)
  3. Préparation des données : Les données brutes sont rarement prêtes à être utilisées. Cette phase consiste à nettoyer, transformer et enrichir les données pour les rendre adaptées à la modélisation.
  4. Modélisation : C'est ici que le Machine Learning entre en jeu. Les données préparées sont utilisées pour entraîner différents modèles, qui sont ensuite évalués et optimisés en fonction des critères de performance définis.
  5. Évaluation : Une fois les modèles formés, ils sont évalués sur des données de test pour s'assurer qu'ils répondent bien aux objectifs initiaux et qu'ils généralisent correctement à de nouvelles données.
  6. Déploiement : Le modèle final est mis en production, intégré dans des systèmes opérationnels pour fournir des prédictions ou des classifications en temps réel ou selon les besoins.
  7. Monitoring et Maintenance : Une fois le modèle ML mis en production, il est essentiel de surveiller ses performances et de le maintenir.
Machine Learning Development Life Cycle Process - Source : ml-ops.org

La méthodologie CRISP-ML offre plusieurs avantages :

  • Structure : Elle fournit un cadre clair et éprouvé pour mener à bien les projets de Machine Learning.
  • Flexibilité : Bien qu'elle propose une séquence d'étapes, CRISP-ML est suffisamment flexible pour s'adapter à différents types de projets et de domaines d'application.
  • Communication : Elle facilite la communication entre les parties prenantes en définissant clairement les étapes et les livrables.

Fait intéressant

💡 CRISP-ML est adaptation de la méthodologie CRISP-DM (Cross-Industry Standard Process for Data Mining), conçue spécifiquement pour les projets de Machine Learning et leurs spécificités. C’est en particulier sur les phases de Maintenance et Monitoring que CRISP-ML se démarque de CRISP-DM.

Ressources Hymaïa associées

Littérature

Nos vidéos sur le sujet

No items found.

Nos publications sur le sujet

No items found.

Nos événements sur le sujet

Aucun événement

Notre prochain événement

Hymaia : Webinar Data Engineering sur AWS

JEU. 29 FEB - 13:30
Gratuit
Live Linkedin
détails et inscription

S'abonner au Data Citizen podcast