Hymaïa Blog | Produits Data Science - N’attendez pas le modèle parfait avant d’industrialiser !

produit DataScience ML — le ML ne doit pas être votre seule préoccupation

Ou autrement dit : “Est-ce que je dois continuer à passer du temps à améliorer mon modèle de Machine Learning pour obtenir de meilleures performances, ou bien peut-on passer à l’industrialisation du Use Case ?”.

Notre conviction est qu’un modèle de Machine Learning (ML) n’a que très peu de valeur en soi, c’est son utilisation en production et en réponse à une problématique métier précise qui est importante. Et pour cela, rien de mieux que de rapidement passer à la création d’un MVP de bout en bout.

Avant toute chose, précisons que la notion de MVP (Minimum Viable Product) que nous utilisons ici se réfère à un produit minimaliste (découpé via une Story Map) mais implémenté en production, qui peut être différent d’autres notions de MVP du Lean Startup par exemple.

Pourquoi il ne faut pas attendre trop longtemps avant de penser MVP ?

Éviter de se rendre compte in fine que le modèle n’est pas exploitable en production

Plusieurs raisons peuvent amener à cette conclusion : un temps de latence trop élevé, une taille du modèle trop grande, un modèle qui n’est pas adapté pour le temps réel, qui n’est pas compatible avec les contraintes techniques des environnements de production, une dégradation trop rapide des performances ou encore une interprétabilité très limitée.

Votre modèle de Machine Learning n’est pas votre seule préoccupation

Un modèle de ML n’est qu’un tout petit morceau de l’ensemble de la chaîne de traitement nécessaire pour implémenter un produit Data Science de bout en bout.

Il est nécessaire de voir un produit Data Science comme un ensemble, et pas uniquement sous le spectre du modèle de Machine Learning. Passer rapidement à la création d’un MVP permet de se rendre compte au plus tôt de la difficulté potentielle de créer une chaîne de traitement complète, de l’ingestion de données à l’activation des résultats par un utilisateur final.

*Le modèle de ML n’est q’une toute petite partie d’une chaîne de traitement data (Source :* *http://papers.neurips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf*)

Lever les principales incertitudes

Dans la majorité des cas, votre objectif dans une phase initiale d’un projet Data Science ne doit pas être de savoir quelle performance maximale du modèle vous pouvez atteindre, mais plutôt de lever les principales incertitudes inhérentes à un projet Data Science : ma donnée est-elle de qualité ? puis-je croiser mes différentes sources ? Est-il techniquement possible de faire ce type de prédiction ? Quel niveau de performance puis-je atteindre sans effort ? Voyons-nous un fort potentiel d’amélioration de ces performances ?

Valider la faisabilité technique de bout en bout

Une fois que vous avez obtenu des réponses à ces questions et baissé votre niveau d’incertitude sur le potentiel business de votre Use Case, il est grand temps de lever les obstacles liés à la faisabilité technique à travers l’implémentation d’un MVP de bout en bout. C’est en reliant toutes les briques entre elles que vous vous rendrez compte de vos principaux obstacles, et que vous réaliserez probablement que le fait de gagner 0.2% de performance dans votre modèle n’est que le cadet de vos soucis !

Faire simple ne veut pas dire faire moins performant

Il n’est pas forcément nécessaire de se restreindre à l’option “modèle simple et moins performant” pour créer rapidement un MVP d’un produit Data Science, d’autres approches permettent d’avoir dès le départ des performances tout à fait intéressantes.

North Star ML — Ne pas regarder par le seul et unique prisme du ML

La mesure de l’impact doit être votre North Star

Être au clair sur la problématique à résoudre

Si vous êtes clair sur la problématique à résoudre et sur la manière de mesurer votre impact (la valeur apportée par votre produit), alors le fait de vous lancer rapidement dans la réalisation d’un MVP est un moyen très efficace de vous assurer que vous apportez réellement de la valeur à ce problème.

Et parfois, oui, lorsque l’on a passé un temps conséquent à réellement comprendre la problématique de nos utilisateurs, une Data Visualisation claire ou quelques règles métier bien pensées pourront apporter une incroyable valeur.

Au contraire, lorsque votre focus est principalement axé sur le modèle sans être absolument certain qu’il aidera parfaitement à répondre à la problématique métier, vous risquez de créer de la confusion et de la frustration.

Prioriser sur l’apport de valeur de votre produit, pas les performances de votre modèle

Avoir rapidement un MVP avec une chaîne de traitement de bout en bout d’implémenté en production permet de se poser les bonnes questions et de faire les bonnes priorisations. Est-ce vraiment sur l’amélioration des performances du modèle que je dois concentrer toute mon énergie ? Grâce à la boucle de feedback mise en place, n’y a-t-il pas d’autres zones de travail permettant de faire un plus grand gain en apport de valeur (focus sur la qualité de la donnée, incorporation de nouvelles sources de données, retravail de la mise à disposition des résultats, etc.) ?

Dimensionner votre projet sous plusieurs angles

Au-delà des approches concernant la partie modélisation, pensez aussi à dimensionner votre MVP en termes de scope d’intervention. Afin d’apporter de la valeur, avez-vous besoin d’avoir un modèle performant sur l’ensemble de vos catégories de produits ? Ne peut-on pas nous limiter dans un premier temps aux catégories les plus vendues ou les plus à potentiel ?

Ajouter des dimensions ajoute de la complexité, et potentiellement des difficultés à bien comprendre nos erreurs et nos zones d’amélioration.

En conclusion, il nous paraît essentiel de penser son produit Data Science comme un tout dès son début d’implémentation, et non pas le regarder par le seul et unique prisme du modèle de Machine Learning.

Online Bootcamp Data & AI Product Manager

📅

Nous contacter

en détail

LLM Engineering

📅

Nous contacter

en détail

Datadictionary

MLOps

Le MLOps est le processus d’automatisation du Machine Learning en utilisant les méthodologies DevOps. Son but est de faciliter la création, le déploiement et la gestion en production de systèmes de Machine Learning sur l’ensemble de son cycle de vie.

lire plus

Data As A Product

Constitue l’un des 4 piliers du Data Mesh. Il consiste à considérer la Data d’un domaine métier comme un produit à part entière. Parmi ses propriétés : découvrabilité, facilité d’accès, fiabilité, non-ambiguïté, gouverné et sécurisé.

lire plus

Toutes les termes