L’IA multimodale de ChatGPT Omni

Le buzz de l’IA multimodal

Une nouvelle ère technologique émerge, visant à équiper l’intelligence artificielle de la capacité de percevoir et comprendre le monde pour vous. Cette semaine, OpenAI et Google ont dévoilé leurs innovations les plus avancées dans le domaine de l’IA. Depuis deux ans, les entreprises technologiques cherchent à affiner l’intelligence de leurs modèles d’IA, toutefois, une ambition nouvelle prend forme: la multimodalité. OpenAI et Google investissent dans une IA qui navigue sans heurt entre les fonctions visuelles, auditives et verbales.

Le terme multimodal fait le buzz alors que les géants de la tech parient sur l’intégration de leurs modèles d’IA dans notre quotidien. Depuis le lancement de ChatGPT en 2022, les chatbots traditionnels ont perdu de leur superbe. Les entreprises aspirent désormais à rendre l’interaction avec un assistant IA aussi naturelle qu’une conversation. Ils y incorporent la parole et le partage visuel plutôt que de se limiter à la saisie sur clavier. Lorsque parfaitement exécutée, l’IA multimodale semble tout droit sortie d’un film de science-fiction.

ChatGPT-4 Omni révolutionne déjà l’IA

OpenAI a introduit GPT-4 Omni. Lors de la démonstration, ChatGPT utilisait la caméra d’un téléphone pour observer un problème de mathématiques pendant qu’un employé d’OpenAI lui demandait de l’aide vocalement. Ce modèle est maintenant accessible aux utilisateurs Premium d’OpenAI.

GPT-4o se distingue par sa capacité à traiter naturellement l’audio, la vidéo et le texte avec un seul modèle d’IA. Auparavant, OpenAI devait utiliser des modèles séparés pour convertir la parole et la vidéo en texte afin que le GPT-4, basé sur le langage, puisse comprendre ces médias. Il semblerait que Google utilise encore plusieurs modèles pour ces tâches, d’où les délais de réponse plus longs.

L’IA multimodale est une thématique dont le bruit ne cessera de croître. Son développement et son intégration promettent de rendre l’IA bien plus pratique, en nous libérant de la tâche de traduire le monde en un modèle de langage et en permettant à l’IA de voir et entendre de façon autonome.

Roger Blonnay
Roger Blonnay
J'ai bourlingué à travers le monde comme journaliste itinérant. J'ai surtout écris des actualités commerciales et financières avant de plonger dans la cryptosphère en 2016. Ma passion, c'est l'investissement. Mais je m'intéresse également à la compréhension de la crypto du point de vue des finances personnelles et de ses fondamentaux.

Autres Articles

spot_img
4,317SuiveursSuivre

Derniers Articles