Des chercheurs de l'équipe Qwen d'Alibaba ont publié Qwen-RobotWorld, un modèle de monde vidéo innovant conditionné par le langage pour l'intelligence incarnée, disponible sur arXiv (arXiv:2606.17030). Le modèle utilise le langage naturel comme interface d'action unifiée pour prédire des trajectoires visuelles futures physiquement plausibles dans plusieurs domaines, notamment la manipulation robotique, la conduite autonome, la navigation intérieure et le transfert homme-robot.
L'architecture technique comprend trois composants clés :
Double-Stream MMDiT avec MLLM Action Encoding : Un transformateur de diffusion à double flux de 60 couches qui couple la sémantique figée de Qwen2.5-VL avec les latents video-VAE via une attention conjointe par couche.
Embodied World Knowledge (EWK) : Un vaste corpus de 8,6 millions de paires vidéo-texte (plus de 200M d'images) avec un mapping action-langage couvrant plus de 20 modalités robotiques et 500+ catégories d'actions.
Curriculum Progressif Général+Expert : Une stratégie d'entraînement en deux étapes qui apprend d'abord des priorités visuelles générales, puis injecte une spécialisation incarnée.
Qwen-RobotWorld démontre des performances exceptionnelles, se classant 1er sur EWMBench et DreamGen Bench, surpassant tous les modèles open source sur WorldModelBench et PBench.


