EG
Una visualización abstracta de la arquitectura de red neuronal de IA con conexiones azules brillantes que representan el aprendizaje automático y el procesamiento de inteligencia artificial
ResearchJune 16, 2026Embodied Global Team

Qwen-RobotWorld de Alibaba: Un modelo de mundo unificado condicionado por lenguaje para inteligencia incorporada

El equipo Qwen de Alibaba presenta Qwen-RobotWorld, un modelo de mundo de video condicionado por lenguaje que ocupa el primer lugar en EWMBench y DreamGen Bench, superando a todos los modelos de código abierto en manipulación robótica, conducción autónoma y navegación interior.

#world model#Qwen#Alibaba#VLA#embodied AI#video generation#language-conditioned#open source
Reading in Spanish

Qwen-RobotWorld: Un nuevo paradigma para el modelado del mundo incorporado

El 15 de junio de 2026, el equipo Qwen de Alibaba publicó el informe técnico de Qwen-RobotWorld, un modelo de mundo de video condicionado por lenguaje que representa un avance significativo en la inteligencia incorporada unificada.

¿Qué es Qwen-RobotWorld?

Qwen-RobotWorld es un modelo de mundo que utiliza el lenguaje natural como interfaz de acción unificada. Dada una observación actual y una instrucción en lenguaje, predice trayectorias visuales futuras fundamentadas físicamente en múltiples dominios: manipulación robótica, conducción autónoma, navegación interior y transferencia humano-robot.

Esta formulación unificada proporciona tres direcciones clave de aplicación:

  • Generación de datos sintéticos para aumentar el entrenamiento de políticas
  • Entornos virtuales escalables para evaluación de políticas
  • Señales de planificación guiadas por lenguaje para control robótico descendente

Arquitectura de tres partes

El rendimiento del modelo se basa en un diseño de tres partes:

  1. MMDiT de doble flujo con codificación de acción MLLM: Un transformer de difusión de doble flujo de 60 capas que acopla la semántica congelada de Qwen2.5-VL con latentes de video-VAE a través de atención conjunta por capas.

  2. Conocimiento del mundo incorporado (EWK): Un corpus de 8.6 millones de video-texto (más de 200 millones de fotogramas) con mapeo de acción-lenguaje que cubre más de 20 tipos de cuerpo y más de 500 categorías de acción.

  3. Currículo progresivo General+Experto: Una estrategia de entrenamiento de dos etapas que primero aprende prioridades visuales generales y luego inyecta especialización incorporada bajo una interfaz de lenguaje compartida.

Rendimiento en benchmarks

Qwen-RobotWorld demuestra resultados excepcionales:

  • Clasificado 1° en general en EWMBench y DreamGen Bench
  • Supera a todos los modelos de código abierto en WorldModelBench y PBench
  • Fuerte generalización zero-shot y consistencia multivista en RoboTwin-IF

Implicaciones

Como modelo de mundo unificado que abarca diversos cuerpos y tareas, Qwen-RobotWorld señala un cambio hacia modelos de mundo fundamentales que pueden servir como columna vertebral para sistemas de IA física, reduciendo la necesidad de tuberías de entrenamiento específicas de tareas y acelerando el camino hacia la inteligencia incorporada de propósito general.

Language: Spanish- Showing content in Spanish