Produit

Produits Data Science - N’attendez pas le modèle parfait avant d’industrialiser !

Yoann Benoit

Yoann Benoit

Head Of Data & IA d'Hymaia

Icône d'image de remplacement avec un symbole de paysage et un point blanc sur fond gris clair.

Nom Prénom

Poste

May 12, 2025

5 min

Difficulté:

🌶️

le ML ne doit pas être votre seule préoccupation

Ou autrement dit : “Est-ce que je dois continuer à passer du temps à améliorer mon modèle de Machine Learning pour obtenir de meilleures performances, ou bien peut-on passer à l’industrialisation du Use Case ?”.

Notre conviction est qu’un modèle de Machine Learning (ML) n’a que très peu de valeur en soi, c’est son utilisation en production et en réponse à une problématique métier précise qui est importante. Et pour cela, rien de mieux que de rapidement passer à la création d’un MVP de bout en bout.

Avant toute chose, précisons que la notion de MVP (Minimum Viable Product) que nous utilisons ici se réfère à un produit minimaliste (découpé via une Story Map) mais implémenté en production, qui peut être différent d’autres notions de MVP du Lean Startup par exemple.

Pourquoi il ne faut pas attendre trop longtemps avant de penser MVP ?

Éviter de se rendre compte in fine que le modèle n’est pas exploitable en production

Plusieurs raisons peuvent amener à cette conclusion : un temps de latence trop élevé, une taille du modèle trop grande, un modèle qui n’est pas adapté pour le temps réel, qui n’est pas compatible avec les contraintes techniques des environnements de production, une dégradation trop rapide des performances ou encore une interprétabilité très limitée.

Votre modèle de Machine Learning n’est pas votre seule préoccupation

Un modèle de ML n’est qu’un tout petit morceau de l’ensemble de la chaîne de traitement nécessaire pour implémenter un produit Data Science de bout en bout.

Il est nécessaire de voir un produit Data Science comme un ensemble, et pas uniquement sous le spectre du modèle de Machine Learning. Passer rapidement à la création d’un MVP permet de se rendre compte au plus tôt de la difficulté potentielle de créer une chaîne de traitement complète, de l’ingestion de données à l’activation des résultats par un utilisateur final.

Le modèle de ML n’est q’une toute petite partie d’une chaîne de traitement data (Source : http://papers.neurips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf)

Lever les principales incertitudes

Dans la majorité des cas, votre objectif dans une phase initiale d’un projet Data Science ne doit pas être de savoir quelle performance maximale du modèle vous pouvez atteindre, mais plutôt de lever les principales incertitudes inhérentes à un projet Data Science : ma donnée est-elle de qualité ? puis-je croiser mes différentes sources ? Est-il techniquement possible de faire ce type de prédiction ? Quel niveau de performance puis-je atteindre sans effort ? Voyons-nous un fort potentiel d’amélioration de ces performances ?

Valider la faisabilité technique de bout en bout

Une fois que vous avez obtenu des réponses à ces questions et baissé votre niveau d’incertitude sur le potentiel business de votre Use Case, il est grand temps de lever les obstacles liés à la faisabilité technique à travers l’implémentation d’un MVP de bout en bout. C’est en reliant toutes les briques entre elles que vous vous rendrez compte de vos principaux obstacles, et que vous réaliserez probablement que le fait de gagner 0.2% de performance dans votre modèle n’est que le cadet de vos soucis !

Faire simple ne veut pas dire faire moins performant

Il n’est pas forcément nécessaire de se restreindre à l’option “modèle simple et moins performant” pour créer rapidement un MVP d’un produit Data Science, d’autres approches permettent d’avoir dès le départ des performances tout à fait intéressantes.

Ne pas regarder par le seul et unique prisme du ML

La mesure de l’impact doit être votre North Star

Être au clair sur la problématique à résoudre

Si vous êtes clair sur la problématique à résoudre et sur la manière de mesurer votre impact (la valeur apportée par votre produit), alors le fait de vous lancer rapidement dans la réalisation d’un MVP est un moyen très efficace de vous assurer que vous apportez réellement de la valeur à ce problème.

Et parfois, oui, lorsque l’on a passé un temps conséquent à réellement comprendre la problématique de nos utilisateurs, une Data Visualisation claire ou quelques règles métier bien pensées pourront apporter une incroyable valeur.

Au contraire, lorsque votre focus est principalement axé sur le modèle sans être absolument certain qu’il aidera parfaitement à répondre à la problématique métier, vous risquez de créer de la confusion et de la frustration.

Prioriser sur l’apport de valeur de votre produit, pas les performances de votre modèle

Avoir rapidement un MVP avec une chaîne de traitement de bout en bout d’implémenté en production permet de se poser les bonnes questions et de faire les bonnes priorisations. Est-ce vraiment sur l’amélioration des performances du modèle que je dois concentrer toute mon énergie ? Grâce à la boucle de feedback mise en place, n’y a-t-il pas d’autres zones de travail permettant de faire un plus grand gain en apport de valeur (focus sur la qualité de la donnée, incorporation de nouvelles sources de données, retravail de la mise à disposition des résultats, etc.) ?

Dimensionner votre projet sous plusieurs angles

Au-delà des approches concernant la partie modélisation, pensez aussi à dimensionner votre MVP en termes de scope d’intervention. Afin d’apporter de la valeur, avez-vous besoin d’avoir un modèle performant sur l’ensemble de vos catégories de produits ? Ne peut-on pas nous limiter dans un premier temps aux catégories les plus vendues ou les plus à potentiel ?

Ajouter des dimensions ajoute de la complexité, et potentiellement des difficultés à bien comprendre nos erreurs et nos zones d’amélioration.

En conclusion, il nous paraît essentiel de penser son produit Data Science comme un tout dès son début d’implémentation, et non pas le regarder par le seul et unique prisme du modèle de Machine Learning.

Pour aller plus loin

Ces formations pourraient aussi vous intéresser

Data-dictionnaire

Data-dictionnaire

Tech & Data

MLOps

Qu'est-ce que le MLOps ?

Le MLOps applique les principes du DevOps au machine learning : automatisation du deploiement, monitoring des modeles en production et gestion du cycle de vie complet, de l'entrainement au reentrainement.

Data-dictionnaire

Data-dictionnaire

Ecueils Data

Quels sont les principaux ecueils Data en entreprise ?

Les ecueils Data sont les pieges recurrents qui empechent les organisations d'exploiter leurs donnees a l'echelle. Ils se repartissent en trois categories : organisationnels, methodologiques et techniques.

Ces contenus pourraient
aussi vous intéresser

Article

Article

Produit

5 min

🌶️

Débutants

De la Magie à la Maîtrise : Démystifier l’IA pour maximiser son adoption

Surconfiance, désillusion... Comment passer de la pensée magique à une vraie maîtrise de l'IA.

19.05.2025

Voir
Article

Article

Produit

15 min

🌶️

Débutants

Le Triple Diamant de la Data

Adapter le Double Diamant aux produits Data & IA grâce à un troisième espace dédié à la donnée.

12.05.2025

Voir
Article

Article

Produit

10 min

🌶️

Débutants

Data Product Manager, un métier en pleine expansion

Data Product Manager : un métier en pleine expansion entre Product Management, Data et IA.

12.05.2025

Voir
Vidéo

Vidéo

Produit

Qu'est ce que le Data Storytelling?

A l'occasion de ce Meetup organisé (après un pari perdu...) par Kevin, nous explorerons les subtilités ud data Storytelling. Natacha nous dévoilera également les secrets des analyses statistiques rigoureuses et Julia abordera les questions d'interactivité et de visualisation des données.

Avec Kevin : Maîtriser le Data Storytelling en Entreprise

Kevin explorera l'univers du data storytelling, partageant des techniques pour améliorer la communication visuelle de nos idées et captiver l'audience lors de présentations. Cette session est essentielle pour tous ceux qui cherchent à donner vie à leurs données de manière marquante.

Avec Natacha : Éviter les 7 Biais Statistiques en Entreprise

Natacha mettra en lumière les pièges des analyses statistiques et comment les éviter. Grâce à ses guidelines éprouvées, apprenez à réaliser des analyses rigoureuses et fiables.

Avec Julia : Interactivité et Storytelling Visuel

Julia traitera de l'interactivité dans la visualisation des données et les graphiques. Elle explorera les avantages et les limites des graphiques interactifs par rapport aux graphiques statiques, dans le contexte de data storytelling. S'appuyant sur son expérience, elle illustrera ces concepts à l'aide d'exemples tirés de son portfolio.

12.05.2025

Voir
Vidéo

Vidéo

Produit

[Hymaia x Modality] Data Viz avec Caroline Goulard : Rendre visible l'invisible

Lors de cette interview, Caroline, ancienne journaliste de données et co-fondatrice et CEO chez Dataveyes, nous raconte son parcours et nous présente sont produit Modality. Elle aborde la Data Visualisation, où comment rendre visible, l'invisible.

12.05.2025

Voir
Ready ?

Prêt à accélérer votre Transformation ?

Nos experts vous accompagnent à chaque étape de votre parcours Data & IA. Discutons ensemble de vos enjeux et objectifs.