Un equipo de investigación chino ha publicado un nuevo modelo de IA enfocado en robótica en arXiv y afirma que supera a los principales sistemas patentados en muchos benchmarks de IA embodied, al tiempo que lanza públicamente sus pesos, conjuntos de datos y código.
El artículo, "Embodied-R1.5: Evolucionando la Inteligencia Física a través de Modelos Fundacionales Embodied," fue publicado el 9 de junio como arXiv:2606.11324. El primer autor es Yifu Yuan, quien se identifica públicamente como estudiante de doctorado en el Laboratorio de Aprendizaje por Refuerzo Profundo de la Universidad de Tianjin.
Los autores describen Embodied-R1.5 como un "Modelo Fundacional Embodied Unificado" diseñado para combinar cognición embodied, planificación de tareas, corrección y указание en una arquitectura. Utilizaron tres pipelines automatizados de construcción de datos para construir un sistema de entrenamiento de más de 15 mil millones de tokens, e introdujeron lo que llaman un marco de trabajo de bucle cerrado Planificador-Verificador-Corrector (PGC) para que un solo modelo pueda ejecutar y autocorregirse durante tareas de largo horizonte.
"Con solo 8B parámetros, Embodied-R1.5 logra SOTA en 16 de 24 benchmarks embodied VLM, superando modelos líderes como Gemini-Robotics-ER-1.5 y GPT-5.4," escribieron los autores.
El modelo se puede ajustar finamente a un sistema visión-lenguaje-acción con relativamente pocos datos. Esa versión supuestamente supera modelos VLA líderes incluyendo π0.5 en cuatro suites de benchmarks de manipulación.
Los autores han publicado en código abierto los pesos del modelo, conjuntos de datos, código de entrenamiento y EmbodiedEvalKit, un marco de evaluación adaptado para tareas embodied. Artefactos relacionados están disponibles en Hugging Face bajo la cuenta IffYuan.
