EG
Une visualisation abstraite de l'architecture de réseau neuronal d'IA avec des connexions bleues lumineuses représentant l'apprentissage automatique et le traitement de l'intelligence artificielle
ResearchJune 16, 2026Embodied Global Team

Qwen-RobotWorld d'Alibaba : Un modèle de monde unifié conditionné par le langage pour l'intelligence incarnée

L'équipe Qwen d'Alibaba dévoile Qwen-RobotWorld, un modèle de monde vidéo conditionné par le langage classé premier sur EWMBench et DreamGen Bench, surpassant tous les modèles open source en manipulation robotique, conduite autonome et navigation intérieure.

#world model#Qwen#Alibaba#VLA#embodied AI#video generation#language-conditioned#open source
Reading in French

Qwen-RobotWorld : Un nouveau paradigme pour la modélisation du monde incarné

Le 15 juin 2026, l'équipe Qwen d'Alibaba a publié le rapport technique de Qwen-RobotWorld, un modèle de monde vidéo conditionné par le langage qui représente une avancée significative dans l'intelligence incarnée unifiée.

Qu'est-ce que Qwen-RobotWorld ?

Qwen-RobotWorld est un modèle de monde qui utilise le langage naturel comme interface d'action unifiée. À partir d'une observation actuelle et d'une instruction linguistique, il prédit des trajectoires visuelles futures physiquement plausibles dans plusieurs domaines : manipulation robotique, conduite autonome, navigation intérieure et transfert humain-robot.

Cette formulation unifiée offre trois directions d'application clés :

  • Génération de données synthétiques pour enrichir l'entraînement des politiques
  • Environnements virtuels évolutifs pour l'évaluation des politiques
  • Signaux de planification guidés par le langage pour le contrôle robotique aval

Architecture en trois parties

La performance du modèle repose sur une conception en trois parties :

  1. MMDiT à double flux avec encodage d'action MLLM : Un transformer de diffusion à double flux de 60 couches qui couple la sémantique gelée de Qwen2.5-VL avec les latents vidéo-VAE via une attention conjointe par couche.

  2. Connaissance du monde incarné (EWK) : Un corpus de 8,6 millions de vidéos-texte (plus de 200 millions d'images) avec un mapping action-langage couvrant plus de 20 types de corps et plus de 500 catégories d'actions.

  3. Curriculum progressif Général+Expert : Une stratégie d'entraînement en deux étapes qui apprend d'abord les priorités visuelles générales, puis injecte la spécialisation incarnée sous une interface linguistique partagée.

Performance sur les benchmarks

Qwen-RobotWorld démontre des résultats exceptionnels :

  • Classé 1er au classement général sur EWMBench et DreamGen Bench
  • Dépasse tous les modèles open source sur WorldModelBench et PBench
  • Forte généralisation zero-shot et cohérence multi-vue sur RoboTwin-IF

Implications

En tant que modèle de monde unifié couvrant divers types de corps et tâches, Qwen-RobotWorld signale un tournant vers des modèles de monde fondamentaux pouvant servir d'épine dorsale pour les systèmes d'IA physique, réduisant le besoin de pipelines d'entraînement spécifiques aux tâches et accélérant la voie vers une intelligence incarnée à usage général.

Language: French- Showing content in French