Investigadores del equipo Qwen de Alibaba han publicado Qwen-RobotWorld, un innovador modelo de mundo de video condicionado por lenguaje para inteligencia encarnada, disponible en arXiv (arXiv:2606.17030). El modelo utiliza el lenguaje natural como una interfaz de acción unificada para predecir trayectorias visuales futuras con base física en múltiples dominios, incluyendo manipulación robótica, conducción autónoma, navegación interior y transferencia humano-robot.
La arquitectura técnica consta de tres componentes clave:
Double-Stream MMDiT con MLLM Action Encoding: Un transformador de difusión de doble flujo de 60 capas que acopla la semántica congelada de Qwen2.5-VL con latentes de video-VAE a través de atención conjunta por capas.
Embodied World Knowledge (EWK): Un amplio corpus de 8.6 millones de pares video-texto (más de 200M fotogramas) con mapeo acción-lenguaje que abarca más de 20 modalidades robóticas y 500+ categorías de acción.
Currículo Progresivo General+Experto: Una estrategia de entrenamiento en dos etapas que primero aprende prioridades visuales generales y luego inyecta especialización encarnada.
Qwen-RobotWorld demuestra un rendimiento sobresaliente, ocupando el primer lugar en EWMBench y DreamGen Bench, superando a todos los modelos de código abierto en WorldModelBench y PBench, con sólidas capacidades de generalización zero-shot.


