アリババのQwenチームの研究者らは、身体性知能のための革新的な言語条件付きビデオ世界モデル「Qwen-RobotWorld」を発表した(arXiv:2606.17030)。このモデルは、自然言語を統一的な動作インターフェースとして使用し、ロボット操作、自律運転、屋内ナビゲーション、人間からロボットへの転送など、複数の領域にわたって物理的に妥当な将来の視覚的軌跡を予測する。
技術アーキテクチャは3つの主要コンポーネントで構成される:
Double-Stream MMDiT with MLLM Action Encoding:60層のデュアルストリーム拡散トランスフォーマーで、凍結されたQwen2.5-VLのセマンティクスとビデオVAE潜在変数を層ごとのジョイントアテンションを通じて結合する。
Embodied World Knowledge(EWK):860万件のビデオ・テキストコーパス(2億フレーム以上)で、20以上の身体性モダリティと500以上の動作カテゴリをカバーするアクション・言語マッピングを備える。
General+Expert Progressive Curriculum:まず多様なビデオデータから一般的な視覚的事前知識を学習し、次に共有言語インターフェース下でのターゲットファインチューニングを通じて身体性特化を注入する2段階トレーニング戦略。
Qwen-RobotWorldは卓越したベンチマーク性能を示し、EWMBenchとDreamGen Benchで総合1位を獲得。WorldModelBenchとPBenchでは全オープンソースモデルを上回り、RoboTwin-IFベンチマークでも堅牢なゼロショット汎化能力を実証した。


