La start-up en intelligence artificielle d’Elon Musk dévoile Grok 1.5 Vision, une percée en apprentissage automatique multimodal

La start-up de haute technologie d’Elon Musk, xAI, a fait un bond significatif dans le domaine de l’intelligence artificielle avec son nouveau modèle de langage multimodal, Grok 1.5 Vision. Ce système d’IA de pointe présente une capacité améliorée d’interprétation de divers éléments visuels, y compris des documents, des photos, des captures d’écran, des graphiques et des schémas. La jeune entreprise a rapidement suivi la sortie de sa version 1.5 de Grok, montrant un rythme ambitieux dans le développement de l’IA.

Les capacités avancées de Grok 1.5 Vision le placent en avant dans la compréhension du monde physique. La start-up a exprimé son excitation face aux performances du modèle sur son benchmark propriétaire, RealWorldQA, qui teste la compréhension spatiale des environnements réels. Les résultats du benchmark pour Grok 1.5 Vision l’ont placé en tête par rapport à d’autres modèles de langage multimodal dans certains domaines, tout en indiquant des zones à améliorer.

La capacité unique de Grok à traiter des tâches complexes et à interpréter des images et d’autres données visuelles a été démontrée par des comparaisons internes avec ses concurrents. Alors qu’il a pris la première place dans l’évaluation TextVQA, surpassant de justesse GPT-4V d’OpenAI, il a légèrement été devancé dans l’évaluation DocVQA par Claude 3 Sonnet, signalant des domaines potentiels d’amélioration.

Avec cette percée, xAI étend le jeu de données de RealWorldQA à la communauté élargie et encourage la collaboration en le rendant accessible sous licence Creative Commons. Le modèle Grok 1.5 Vision sera disponible pour les utilisateurs existants à des fins de test.

Regardant vers l’avenir proche, xAI est déterminé à améliorer la compréhension multimodale de Grok, en mettant l’accent sur le développement de capacités dans les images, l’audio et la vidéo. La société recrute ouvertement des talents dans différents domaines, y compris l’ingénierie et la recherche en IA, l’ingénierie des données, le web crawling, le développement web full stack, et la conception UI/UX, soulignant son engagement envers l’innovation dans la technologie de l’IA.

Privacy policy
Contact