motoniqの研究者とStanford大学、ETH Zurich、TU Darmstadtなどの主要機関の研究者チームが、立場論文(arXiv:2606.06556)を上发表し、VLAモデルと世界モデルのスケール增大が汎用ロボット的实现につながるとする一般的な仮定に挑戦。
研究者は、非構造化物理動作データをロボットの監視信号に変換するメカニズムの欠如を主なボトルネックとして特定。四つの重要な欠落コンポーネントを提示: (1) 身体性を伴う物理データエンジンと自動アノテーション、跨实体タスク保持リターゲティング、(3) 物理的に基盤を置いた世界モデルインターフェース、(4) ビデオと言語からタスク進行を推測する奖励インターフェース。
同論文は、単にVLAモデルを拡大するだけでは汎用ロボティクスは達成できないという厳格な証拠を提示。著者は、生のモデルスケールよりもデータ品質と学習メカニズムが重要であると強調し、ロボットが物理的相互作用から学習する方法の根本的な再考を呼吁。
