Hymaïa Datadictionary | Qu'est-ce que l'IA multimodale ?

Partager la définition

Termes similaires

L'IA multimodale fait référence aux systèmes d'intelligence artificielle capables de traiter simultanément plusieurs types de données -- ou "modalités" -- comme le texte, les images, l'audio et la vidéo. Un modèle multimodal peut analyser une photo et la décrire en texte, transcrire une conversation audio, ou générer une image à partir d'une description textuelle.

Des modèles spécialisés aux modèles multimodaux

Historiquement, les modèles d'IA étaient spécialisés sur une seule modalité. Les modèles de traitement du langage naturel (NLP) travaillaient sur le texte. Les modèles de vision par ordinateur analysaient les images. Les modèles de reconnaissance vocale traitaient l'audio. Chaque modalité avait ses architectures, ses jeux de données et ses métriques.

L'émergence des architectures Transformer, initialement conçues pour le texte, a changé la donne. Les chercheurs ont découvert que la même architecture pouvait traiter différentes modalités, à condition de transformer chaque type de donnée en une séquence de tokens. Un pixel peut devenir un token, un segment audio peut devenir un token, tout comme un mot.

Les modèles multimodaux actuels

Plusieurs modèles multimodaux de référence sont disponibles :

Modèles de compréhension (analyse de plusieurs modalités) :

GPT-4o (OpenAI) : traite texte, images et audio dans un modèle unifié. Le "o" signifie "omni".
Claude 3 / Claude 3.5 (Anthropic) : analyse texte et images avec une compréhension fine des documents, graphiques et captures d'écran.
Gemini (Google DeepMind) : conçu nativement multimodal, traite texte, images, audio et vidéo.

Modèles de génération d'images :

DALL-E 3 (OpenAI) : génération d'images à partir de descriptions textuelles.
Midjourney : génération d'images artistiques avec un contrôle stylistique avancé.
Stable Diffusion (Stability AI) : modèle open source de génération d'images, déployable localement.
Flux (Black Forest Labs) : nouvelle génération de modèles open source.

Modèles audio et vidéo :

Whisper (OpenAI) : transcription audio vers texte, multilingue.
Sora (OpenAI) : génération de vidéo à partir de texte.
Kling, Runway : génération et édition vidéo.

Comment fonctionne la multimodalité

Les modèles multimodaux utilisent généralement des encodeurs spécialisés pour chaque modalité, qui transforment les données brutes en représentations vectorielles (embeddings) dans un espace partagé. Le modèle CLIP d'OpenAI (2021) a été pionnier dans cette approche : il projette texte et images dans le même espace vectoriel, permettant de comparer directement une phrase et une image.

Les modèles plus récents comme GPT-4o adoptent une approche plus intégrée où l'ensemble du modèle est entraîné de bout en bout sur plusieurs modalités simultanément, plutôt que d'assembler des encodeurs séparés.

Cas d'usage concrets

Analyse de documents. Un modèle multimodal peut analyser un PDF contenant du texte, des tableaux, des graphiques et des images, puis répondre à des questions sur l'ensemble du document. C'est un cas d'usage majeur pour les entreprises qui doivent traiter des rapports financiers, des contrats ou de la documentation technique.

Support client visuel. Un utilisateur envoie une photo d'un produit défectueux. Le modèle identifie le problème et propose une solution, combinant compréhension visuelle et connaissance produit.

Accessibilité. Description automatique d'images pour les personnes malvoyantes, sous-titrage de vidéos, transcription audio en temps réel.

Recherche sémantique cross-modale. Chercher des images avec du texte, trouver des passages vidéo correspondant à une description, ou identifier des segments audio mentionnant un concept précis. Les embeddings multimodaux et les bases de données vectorielles rendent ces recherches possibles.

Génération de contenu. Création de présentations combinant texte et visuels, génération de vidéos explicatives, production de podcasts synthétiques. Les équipes marketing et communication utilisent ces capacités pour accélérer la production de contenu.

Multimodalité et RAG

L'intégration de la multimodalité dans les architectures RAG ouvre de nouvelles possibilités. Plutôt que de limiter la base de connaissances à du texte, on peut indexer des images, des diagrammes, des graphiques et des extraits audio. Les embeddings multimodaux (comme CLIP) permettent de rechercher dans ces bases avec des requêtes textuelles.

C'est un enjeu de context engineering : concevoir un système où le contexte fourni au LLM ne se limite pas au texte, mais intègre des informations visuelles et audio pertinentes pour la tâche.

Limites et défis

Les hallucinations visuelles. Les modèles multimodaux peuvent "voir" des choses qui n'existent pas dans l'image, ou mal interpréter des éléments visuels. L'évaluation IA doit couvrir ces risques spécifiques.

Le coût computationnel. Traiter des images et des vidéos consomme significativement plus de ressources que le texte seul. Une image haute résolution peut représenter des milliers de tokens.

Les biais. Les modèles multimodaux héritent des biais de leurs données d'entraînement, avec des risques supplémentaires liés aux biais visuels (stéréotypes dans les images générées, biais de reconnaissance faciale).

La confidentialité. Envoyer des images ou des enregistrements audio à une API cloud pose des questions de confidentialité plus aiguës que pour du texte, notamment dans les contextes médicaux ou juridiques.

Fait intéressant

Le modèle GPT-4o d'OpenAI est capable de chanter, rire et moduler son intonation en temps réel, parce qu'il traite l'audio nativement comme une modalité à part entière, au lieu de passer par une étape intermédiaire de transcription en texte.

Qu'est-ce que l'IA multimodale ?