Percée open-source dans le raisonnement incarné
Une équipe conjointe de l'Université du Zhejiang, de l'Institut de logiciel de l'Académie chinoise des sciences (CAS) et de DAMO Academy d'Alibaba Group a publié Embodied-Reasoner, un modèle de raisonnement incarné multimodal entièrement open-source.
Dépassant les géants de l'industrie
Dans des évaluations sur 809 cas de test dans AI2-THOR, Embodied-Reasoner (7B) a atteint :
- 80,96% de taux de réussite contre 71,73% (OpenAI o1), 56,55% (o3-mini), 67,70% (Claude-3.7)
- 55,07% d'efficacité de recherche
- 86,30% d'exhaustivité des tâches
- 54,29% sur les tâches composites multi-étapes
Pipeline de formation en trois étapes
- Apprentissage par imitation sur 9 300 trajectoires synthétisées
- Auto-exploration par échantillonnage par rejet
- Auto-correction par ajustement par réflexion
Validation dans le monde réel
L'équipe a validé Embodied-Reasoner dans des tâches réelles de recherche d'objets.
Disponibilité ouverte
Embodied-Reasoner est disponible en versions 2B et 7B paramètres.
Article : arXiv:2503.21696 | Code : https://github.com/zwq2018/embodied_reasoner




