EG
Diagrama del framework World Pilot mostrando cómo Latent Steering y Action Steering integran prioridades del Modelo Acción-Mundo en la cadena de decisión VLA
ResearchJune 15, 2026Embodied Global Team

World Pilot: Guiando Modelos Visión-Lenguaje-Acción con Prioridades de Acción-Mundo alcanza 84.7% en LIBERO-Plus

Investigadores de CASIA, Universidad de Nanjing y Universidad de Beihang proponen World Pilot, un marco VLA aumentado con prioridades de Modelo Acción-Mundo. Alcanza 84.7% en LIBERO-Plus y las tasas más altas en cuatro tareas robóticas reales.

#VLA#World Model#Robotic Manipulation#LIBERO-Plus#World Action Model#CASIA
Reading in Spanish

Un equipo de investigadores del Instituto de Automatización de la Academia China de Ciencias (CASIA), la Universidad de Nanjing y la Universidad de Beihang ha presentado World Pilot, un novedoso marco Visión-Lenguaje-Acción (VLA) que integra prioridades de un Modelo Acción-Mundo (WAM) para mejorar significativamente el rendimiento en manipulación robótica.

Los modelos VLA tradicionales heredan un grounding semántico del preentrenamiento a gran escala en pares imagen-texto estáticos, pero las tareas de manipología implican dinámicas continuas y ricas en contacto que dicho preentrenamiento no puede capturar. World Pilot aborda esta limitación fundamental enrutando las prioridades del WAM en la cadena de decisión del VLA a través de dos vías complementarias.

Latent Steering condiciona la capa de percepción en un latente de evolución de la escena, proporcionando al modelo una comprensión anticipada de cómo cambiará el entorno. Action Steering suministra una trayectoria anticipada como prioridad de movimiento al generador de acciones. Juntas, estas dos prioridades equipan al VLA con una vista predictiva de la escena e indicaciones de movimiento a nivel de trayectoria.

Un hallazgo clave es que la prioridad de evolución de la escena sigue siendo efectiva incluso cuando es suministrada por un modelo de mundo preentrenado en video que no ha pasado por post-entrenamiento de acciones, ampliando significativamente la aplicabilidad del enfoque.

World Pilot alcanza una tasa de éxito total del 84.7% en el benchmark LIBERO-Plus zero-shot OOD, superando métodos anteriores como Cosmos Policy (79.7%) y Being-H0 (82.1%). En evaluaciones robóticas reales en cuatro tareas de manipología, logra las tasas de éxito más altas, con los mayores márgenes de rendimiento observados bajo cambios de punto de vista, geometría, estado deformable y postura.

Language: Spanish- Showing content in Spanish