Le buzz de l’IA multimodal
Une nouvelle ère technologique émerge, visant à équiper l’intelligence artificielle de la capacité de percevoir et comprendre le monde pour vous. Cette semaine, OpenAI et Google ont dévoilé leurs innovations les plus avancées dans le domaine de l’IA. Depuis deux ans, les entreprises technologiques cherchent à affiner l’intelligence de leurs modèles d’IA, toutefois, une ambition nouvelle prend forme: la multimodalité. OpenAI et Google investissent dans une IA qui navigue sans heurt entre les fonctions visuelles, auditives et verbales.
Le terme multimodal fait le buzz alors que les géants de la tech parient sur l’intégration de leurs modèles d’IA dans notre quotidien. Depuis le lancement de ChatGPT en 2022, les chatbots traditionnels ont perdu de leur superbe. Les entreprises aspirent désormais à rendre l’interaction avec un assistant IA aussi naturelle qu’une conversation. Ils y incorporent la parole et le partage visuel plutôt que de se limiter à la saisie sur clavier. Lorsque parfaitement exécutée, l’IA multimodale semble tout droit sortie d’un film de science-fiction.
ChatGPT-4 Omni révolutionne déjà l’IA
OpenAI a introduit GPT-4 Omni. Lors de la démonstration, ChatGPT utilisait la caméra d’un téléphone pour observer un problème de mathématiques pendant qu’un employé d’OpenAI lui demandait de l’aide vocalement. Ce modèle est maintenant accessible aux utilisateurs Premium d’OpenAI.
GPT-4o se distingue par sa capacité à traiter naturellement l’audio, la vidéo et le texte avec un seul modèle d’IA. Auparavant, OpenAI devait utiliser des modèles séparés pour convertir la parole et la vidéo en texte afin que le GPT-4, basé sur le langage, puisse comprendre ces médias. Il semblerait que Google utilise encore plusieurs modèles pour ces tâches, d’où les délais de réponse plus longs.
L’IA multimodale est une thématique dont le bruit ne cessera de croître. Son développement et son intégration promettent de rendre l’IA bien plus pratique, en nous libérant de la tâche de traduire le monde en un modèle de langage et en permettant à l’IA de voir et entendre de façon autonome.