EG
Un bras robotique humanoïde s'étendant vers l'avant dans un laboratoire avec éclairage bleu
ResearchJune 11, 2026Embodied Global Team

Équipe Chinoise Open-Source Embodied-R1.5, Affirme SOTA sur 16/24 Benchmarks IA Incarnée

Une équipe de recherche chinoise dirigée par Yifu Yuan de l'Université de Tianjin a publié Embodied-R1.5 sur arXiv, un modèle fondamental embodied de 8 milliards de paramètres qui prétend obtenir des performances de pointe sur 16 des 24 benchmarks, dépassant Gemini-Robotics-ER-1.5 et GPT-5.4. La version open source complète comprend les poids du modèle, les ensembles de données, le code d'entraînement et le cadre d'évaluation EmbodiedEvalKit.

Reading in French

Une équipe de recherche chinoise a publié un nouveau modèle d'IA axé sur la robotique sur arXiv et affirme qu'il surpasse les principaux systèmes propriétaires sur de nombreux benchmarks d'IA incarnée, tout en rendant publics ses poids, ses ensembles de données et son code.

L'article, "Embodied-R1.5: Faire Évoluer l'Intelligence Physique via des Modèles Fondamentaux Incarnés," a été publié le 9 juin sous la forme arXiv:2606.11324. Le premier auteur est Yifu Yuan, qui s'identifie publiquement comme étudiant en doctorat au Laboratoire d'Apprentissage par Renforcement Profond de l'Université de Tianjin.

Les auteurs décrivent Embodied-R1.5 comme un "Modèle Fondamental Incarné Unifié" conçu pour combiner cognition incarnée, planification de tâches, correction et pointage dans une architecture. Ils ont utilisé trois pipelines automatisés de construction de données pour construire un système d'entraînement de plus de 15 milliards de tokens, et ont introduit ce qu'ils appellent un cadre de boucle fermée Planificateur-Groundateur-Correcteur (PGC) permettant à un modèle unique d'exécuter et de s'auto-corriger pendant des tâches à long terme.

"Avec seulement 8B paramètres, Embodied-R1.5 atteint SOTA sur 16 des 24 benchmarks VLM incarnés, surpassant des modèles leaders comme Gemini-Robotics-ER-1.5 et GPT-5.4," ont écrit les auteurs.

Le modèle peut être affiné en un système vision-langage-action avec relativement peu de données. Cette version surpasserait apparemment des modèles VLA leaders incluant π0.5 dans quatre suites de benchmarks de manipulation.

Les auteurs ont rendu open source les poids du modèle, les ensembles de données, le code d'entraînement et EmbodiedEvalKit, un cadre d'évaluation adapté aux tâches incarnées. Les artifacts associés sont disponibles sur Hugging Face sous le compte IffYuan.