arXivに掲載された位置づけ論文が、身体化知能研究の主流パラダイムに異議を唱えている。Motoniqのチームと協力者は、Vision-Language-Action(VLA)モデルと世界モデルのスケーリングだけでは汎用ロボット知能を実現できないと主張している。
同論文は、現在のアプローチに欠けている4つの重要なコンポーネントを特定した:身体化自動ラベリングを備えた物理データエンジン、クロス具身タスク保存リターゲティング、物理グラウンディング世界モデル、自己改善展開ループ。
研究者らによれば、現在のロボットはまだ事前に整理されたトレーニングデータに大きく依存しており、ビデオ監督はロボットが実行可能なアクションに直接変換できず、既存の世界モデルは接触、力、材料応答などの重要な物理変数を保持することにしばしば失敗する。
著者たちは、異種データソースを共通の基盤物理構造に統合する物理データエンジンの構築が今後の方向性であると提案している。
