Une équipe de recherche chinoise a publié Embodied-R1.5, un modèle fondamental incarné (EFM) unifié qui intègre des capacités complètes de raisonnement incarné dans une seule architecture, obtenant des résultats de pointe sur la majorité des principaux benchmarks d'IA incarnée.
L'article, intitulé "Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models", a été posté sur arXiv le 9 juin (arXiv:2606.11324).
Innovations Techniques Clés
Embodied-R1.5 introduit trois pipelines automatisés de construction de données qui ont généré un ensemble de données d'entraînement de plus de 15 milliards de tokens.
Une caractéristique remarquable est le framework en boucle fermée Planner-Grounder-Corrector (PGC), qui permet à un seul modèle d'exécuter et de s'auto-corriger de manière autonome sur des tâches à long horizon.
Performance sur les Benchmarks
Avec seulement 8 milliards de paramètres, Embodied-R1.5 atteint le SOTA sur 16 des 24 benchmarks VLM incarnés, surpassant les modèles propriétaires leaders comme Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI.
Publication Open Source Complète
L'équipe a open-source les poids du modèle, les ensembles de données, le code d'entraînement et EmbodiedEvalKit sur Hugging Face et GitHub.
