Grok 1.5 est déjà très compétitif. Un petit comparatif.
Multi-discipline
Grok-1.5V a un score de 53,6%, ce qui est proche du milieu de la fourchette. GPT-4V obtient un score plus élevé avec 56,8 %, Claude 3 Sonnet avec 53,1 %, Claude 3 Opus avec 59,4 % (le score le plus élevé dans cette catégorie) et Gemini Pro 1.5 avec 58,5 %. Cela place Grok-1.5V à la limite de la concurrence, mais pas en tête.
Mathématiques
Dans cette catégorie, Grok-1.5V obtient 52,8 %. Ce qui est supérieur aux 49,9 % de GPT-4V, mais inférieur à tous les autres modèles. Claude 3 Opus est en tête avec 50,5 %, suivi de Gemini Pro 1.5 avec 52,1 %. Grok-1.5V est quelque peu compétitif, mais n’est pas un leader dans les benchmarks basés sur les mathématiques.
Diagrammes
Les performances de Grok-1.5V sont très bonnes ici, avec un score de 88,3 %. Il n’est surpassé que par Claude 3 Sonnet avec 88,7 %. GPT-4V a 78,2%, Claude 3 Opus 88,1%, et Gemini Pro 1.5 obtient 80,3%. Grok-1.5V est très compétitif et presque en tête dans cette catégorie.
Lecture de texte
Grok-1.5V obtient un score de 78,1%, ce qui est à peine plus élevé que le score de 78,0% de GPT-4V et dépasse le score inexistant de Claude 3 Opus et le score de 73,5% de Gemini Pro 1.5. Grok-1.5V est compétitif, surtout si l’on tient compte de l’absence de données pour les modèles Claude 3.
Graphiques
Ici, Grok-1.5V a un score inférieur de 76,1% par rapport aux autres modèles. GPT-4V à 78,5%, Claude 3 Sonnet à 81,1%, Claude 3 Opus à 80,8% et Gemini Pro 1.5 en tête avec 81,3%. Grok-1.5V est moins compétitif dans l’interprétation des graphiques.
Documents
Avec un score de 85,6 %, Grok-1.5V est à nouveau compétitif mais n’est pas en tête. GPT-4V a un score plus élevé de 88,4%, Claude 3 Sonnet à 89,5%, Claude 3 Opus à 89,3% et Gemini Pro 1.5 à 86,5%. Grok-1.5V se classe moins bien que les autres modèles en matière de compréhension de documents.
Compréhension du monde réel
Grok-1.5V obtient un score de 68,7 %, soit un score moyen. Il est supérieur au score de 61,4 % de GPT-4V et de 49,8 % de Claude 3 Opus, mais inférieur au score de 51,9 % de Claude 3 Sonnet et nettement inférieur au score de 67,5 % de Gemini Pro 1.5. Grok-1.5V est modérément compétitif dans ce benchmark.