EG
Visualización abstracta de una red neuronal procesando datos visuales robóticos con superposición de mapeo espacial 3D
ResearchJune 20, 2026Embodied Global Team

Qwen-RobotWorld de Alibaba: Un modelo de mundo de video unificado condicionado por lenguaje para inteligencia encarnada

El equipo Qwen de Alibaba publica Qwen-RobotWorld, un modelo de mundo de video condicionado por lenguaje que unifica manipulación robótica, conducción autónoma, navegación interior y transferencia humano-robot. Ocupa el primer lugar en EWMBench y DreamGen Bench.

#Alibaba#Qwen#world model#VLA#video generation#embodied AI#arXiv#open source
Reading in Spanish

Investigadores del equipo Qwen de Alibaba han publicado Qwen-RobotWorld, un innovador modelo de mundo de video condicionado por lenguaje para inteligencia encarnada, disponible en arXiv (arXiv:2606.17030). El modelo utiliza el lenguaje natural como una interfaz de acción unificada para predecir trayectorias visuales futuras con base física en múltiples dominios, incluyendo manipulación robótica, conducción autónoma, navegación interior y transferencia humano-robot.

La arquitectura técnica consta de tres componentes clave:

Double-Stream MMDiT con MLLM Action Encoding: Un transformador de difusión de doble flujo de 60 capas que acopla la semántica congelada de Qwen2.5-VL con latentes de video-VAE a través de atención conjunta por capas.

Embodied World Knowledge (EWK): Un amplio corpus de 8.6 millones de pares video-texto (más de 200M fotogramas) con mapeo acción-lenguaje que abarca más de 20 modalidades robóticas y 500+ categorías de acción.

Currículo Progresivo General+Experto: Una estrategia de entrenamiento en dos etapas que primero aprende prioridades visuales generales y luego inyecta especialización encarnada.

Qwen-RobotWorld demuestra un rendimiento sobresaliente, ocupando el primer lugar en EWMBench y DreamGen Bench, superando a todos los modelos de código abierto en WorldModelBench y PBench, con sólidas capacidades de generalización zero-shot.

Language: Spanish- Showing content in Spanish