EG
Visualisation abstraite d'un réseau de neurones traitant des données visuelles robotiques avec superposition de cartographie spatiale 3D
ResearchJune 20, 2026Embodied Global Team

Qwen-RobotWorld d'Alibaba : Un modèle de monde vidéo unifié conditionné par le langage pour l'intelligence incarnée

L'équipe Qwen d'Alibaba publie Qwen-RobotWorld, un modèle de monde vidéo conditionné par le langage unifiant la manipulation robotique, la conduite autonome, la navigation intérieure et le transfert homme-robot. Classé 1er sur EWMBench et DreamGen Bench.

#Alibaba#Qwen#world model#VLA#video generation#embodied AI#arXiv#open source
Reading in French

Des chercheurs de l'équipe Qwen d'Alibaba ont publié Qwen-RobotWorld, un modèle de monde vidéo innovant conditionné par le langage pour l'intelligence incarnée, disponible sur arXiv (arXiv:2606.17030). Le modèle utilise le langage naturel comme interface d'action unifiée pour prédire des trajectoires visuelles futures physiquement plausibles dans plusieurs domaines, notamment la manipulation robotique, la conduite autonome, la navigation intérieure et le transfert homme-robot.

L'architecture technique comprend trois composants clés :

Double-Stream MMDiT avec MLLM Action Encoding : Un transformateur de diffusion à double flux de 60 couches qui couple la sémantique figée de Qwen2.5-VL avec les latents video-VAE via une attention conjointe par couche.

Embodied World Knowledge (EWK) : Un vaste corpus de 8,6 millions de paires vidéo-texte (plus de 200M d'images) avec un mapping action-langage couvrant plus de 20 modalités robotiques et 500+ catégories d'actions.

Curriculum Progressif Général+Expert : Une stratégie d'entraînement en deux étapes qui apprend d'abord des priorités visuelles générales, puis injecte une spécialisation incarnée.

Qwen-RobotWorld démontre des performances exceptionnelles, se classant 1er sur EWMBench et DreamGen Bench, surpassant tous les modèles open source sur WorldModelBench et PBench.

Language: French- Showing content in French