Des chercheurs ont présenté Thinker, un modèle fondamental vision-langage de 7 milliards de paramètres conçu spécifiquement pour l'intelligence incarnée, atteignant des résultats de pointe sur des benchmarks clés de planification de tâches robotiques. Le modèle aborde des défis fondamentaux que même les VLM avancés rencontrent en robotique, notamment la confusion entre les perspectives à la troisième et à la première personne et la tendance à négliger les informations de fin de vidéo lors du raisonnement.
Thinker utilise une stratégie d'entraînement en deux étapes. L'étape 1 établit des capacités de base de perception et de raisonnement en utilisant un mélange d'ensembles de données généraux, de données de compréhension spatiale et d'ensembles de données de planification à grande échelle. L'étape 2 applique un ajustement supervisé pour l'alignement des tâches spécifiques. Une innovation cruciale réside dans son approche de compréhension vidéo : en incorporant conjointement des images clés et des vidéos complètes comme entrées, le modèle améliore considérablement la compréhension temporelle.
L'équipe de recherche a construit un ensemble de données complet de planification robotique de 1,8 million d'échantillons appelé Robovideo-1.8M, ainsi qu'un ensemble de données de planification de tâches industrielles Industroplan-200K. Les données d'entraînement supplémentaires comprennent plus de 570 000 échantillons d'ancrage visuel pour la compréhension spatiale fine et 100 000 échantillons de raisonnement en première personne.
Sur le benchmark Robovqa, Thinker-7B a obtenu un score BLEU moyen de 63,5, surpassant GPT-4V et tous les modèles robotiques vision-langage existants. Sur le benchmark Egoplan-bench2, il a atteint 58,2% de précision top-1, surpassant de manière exhaustive toutes les références, y compris Qwen2.5-VL-7B et Cosmos-Reason1-7B.
Les contributions clés de l'article comprennent : la construction du plus grand ensemble de données dédié à la planification robotique (Robovideo-1.8M), le développement d'un modèle vision-langage spécialisé de 7B paramètres pour la manipulation robotique, l'obtention de résultats de pointe sur plusieurs benchmarks robotiques prouvant la valeur de l'entraînement spécialisé, et un engagement à open-sourcer le rapport technique complet, l'architecture et les poids.
