中国科学院自動化研究所、南京大学、北京航空航天大学の研究チームは、世界行動モデル(WAM)の先行知識を統合した新しいVision-Language-Action(VLA)フレームワーク「World Pilot」を発表しました。これによりロボット操作性能が大幅に向上しました。
従来のVLAモデルは静的画像-テキストペアの大規模事前学習から意味的基盤を継承しますが、操作タスクは継続的で接触の多いダイナミクスを伴い、そのような事前学習では捉えられません。World Pilotは、2つの相補的経路を通じてWAMの事前知識をVLAの意思決定チェーンに組み込むことで、この根本的な制限に対処します。
潜時誘導(Latent Steering) はシーン進化潜時変数で知覚層を条件付け、環境変化の予測的理解を提供します。行動誘導(Action Steering) は予測軌跡を動作事前分布として行動生成器に供給します。これら2つの事前分布により、VLAは意味的条件付けに加えてシーンの予測ビューと軌跡レベルの動作ヒントを得ることができます。
重要な発見として、シーン進化事前分布は行動後学習を行っていないビデオ事前学習済み世界モデルから供給された場合でも有効であり、アプローチの適用可能性を大幅に拡大します。
World PilotはLIBERO-PlusゼロショットOODベンチマークで84.7%の最先端総合成功率を達成し、Cosmos Policy(79.7%)やBeing-H0(82.1%)を上回りました。4つの実ロボット操作タスクでは全タスクで最高成功率を達成し、視点、形状、変形状態、姿勢の変化下で最大の性能差を示しました。



