Qwen-RobotWorld:身体性世界モデリングの新パラダイム
2026年6月15日、アリババのQwenチームはQwen-RobotWorldのテクニカルレポートを公開しました。これは言語条件付きビデオ世界モデルであり、統一された身体性知能における重要な進歩を示しています。
Qwen-RobotWorldとは?
Qwen-RobotWorldは、自然言語を統一アクションインターフェースとして使用する世界モデルです。現在の観測と言語指示に基づいて、ロボット操作、自動運転、屋内ナビゲーション、人間からロボットへの転送など、複数の領域にわたって物理的に妥当な将来の視覚的軌跡を予測します。
この統一的定式化は、3つの主要な応用方向を提供します:
- ポリシートレーニング拡張のための合成データ生成
- ポリシー評価のためのスケーラブルな仮想環境
- 下流ロボット制御のための言語誘導型計画シグナル
3部構成のアーキテクチャ
モデルの性能は3部構成の設計に支えられています:
-
MLLMアクションエンコーディングを備えたデュアルストリームMMDiT:レイヤーワイズジョイントアテンションを通じて、凍結されたQwen2.5-VLセマンティクスとビデオVAE潜在変数を結合する60層デュアルストリーム拡散トランスフォーマー。
-
身体的世界知識(EWK):20以上の身体タイプと500以上のアクションカテゴリをカバーするアクション言語マッピングを備えた860万のビデオテキストコーパス(2億以上のフレーム)。
-
汎用+専門家段階的カリキュラム:最初に一般的な視覚的事前知識を学習し、次に共有言語インターフェースの下で身体的特殊化を注入する2段階トレーニング戦略。
ベンチマーク性能
Qwen-RobotWorldは卓越した結果を示しています:
- EWMBenchおよびDreamGen Benchで総合1位
- WorldModelBenchおよびPBenchで全オープンソースモデルを凌駕
- RoboTwin-IFベンチマークでの強力なゼロショット汎化とマルチビュー一貫性
意義
多様な身体タイプとタスクにわたる統一世界モデルとして、Qwen-RobotWorldは、物理AIシステムの基盤として機能し、タスク固有のトレーニングパイプラインの必要性を減らし、汎用身体性知能への道を加速する基礎的世界モデルへのシフトを示しています。

