EG
Gros plan d'un bras robotique avec un éclairage bleu dans un laboratoire moderne, représentant la recherche en intelligence incarnée
ResearchJune 22, 2026EG Editorial

Thinker : Un Modèle Fondamental Vision-Langage pour l'Intelligence Incarnée Atteint des Résultats de Pointe sur les Références Robotiques

Des chercheurs proposent Thinker, un modèle fondamental vision-langage de 7B paramètres pour l'intelligence incarnée, atteignant des résultats de pointe sur les benchmarks de planification robotique avec un ensemble de données de 1,8M d'échantillons et surpassant GPT-4V sur les tests Robovqa et Egoplan?bench2. Le modèle sera open-source pour la communauté de recherche en robotique, démontrant la valeur cruciale de la formation spécialisée en robotique intelligente pour les chercheurs et développeurs du monde entier.

#Thinker#VLM#vision-language model#embodied intelligence#robot planning#arXiv#robotics research#SOTA
Reading in French

Des chercheurs ont présenté Thinker, un modèle fondamental vision-langage de 7 milliards de paramètres conçu spécifiquement pour l'intelligence incarnée, atteignant des résultats de pointe sur des benchmarks clés de planification de tâches robotiques. Le modèle aborde des défis fondamentaux que même les VLM avancés rencontrent en robotique, notamment la confusion entre les perspectives à la troisième et à la première personne et la tendance à négliger les informations de fin de vidéo lors du raisonnement.

Thinker utilise une stratégie d'entraînement en deux étapes. L'étape 1 établit des capacités de base de perception et de raisonnement en utilisant un mélange d'ensembles de données généraux, de données de compréhension spatiale et d'ensembles de données de planification à grande échelle. L'étape 2 applique un ajustement supervisé pour l'alignement des tâches spécifiques. Une innovation cruciale réside dans son approche de compréhension vidéo : en incorporant conjointement des images clés et des vidéos complètes comme entrées, le modèle améliore considérablement la compréhension temporelle.

L'équipe de recherche a construit un ensemble de données complet de planification robotique de 1,8 million d'échantillons appelé Robovideo-1.8M, ainsi qu'un ensemble de données de planification de tâches industrielles Industroplan-200K. Les données d'entraînement supplémentaires comprennent plus de 570 000 échantillons d'ancrage visuel pour la compréhension spatiale fine et 100 000 échantillons de raisonnement en première personne.

Sur le benchmark Robovqa, Thinker-7B a obtenu un score BLEU moyen de 63,5, surpassant GPT-4V et tous les modèles robotiques vision-langage existants. Sur le benchmark Egoplan-bench2, il a atteint 58,2% de précision top-1, surpassant de manière exhaustive toutes les références, y compris Qwen2.5-VL-7B et Cosmos-Reason1-7B.

Les contributions clés de l'article comprennent : la construction du plus grand ensemble de données dédié à la planification robotique (Robovideo-1.8M), le développement d'un modèle vision-langage spécialisé de 7B paramètres pour la manipulation robotique, l'obtention de résultats de pointe sur plusieurs benchmarks robotiques prouvant la valeur de l'entraînement spécialisé, et un engagement à open-sourcer le rapport technique complet, l'architecture et les poids.

Language: French- Showing content in French

Share this article