MemoryVLA++:ロボット操作における記憶と想像力の架け橋
複数の機関の研究者が、MemoryVLA++を発表しました。これは、ロボット操作のためにビジョランゲージアクション(VLA)モデルに記憶と想像力の機能を備えた完全な時間モデリングフレームワークです。
時間モデリングの課題
ロボット操作にとって時間モデリングは不可欠です。なぜなら、効果的な制御には過去の相互作用の記憶と将来の状態の想像の両方が必要だからです。しかしほとんどのVLAモデルは主として現在の観察に依存しているため、長期的な時間依存タスクに苦戦します。
認知に触発されたアーキテクチャ
認知科学に触発されたMemoryVLA++は、3つの人間の認知メカニズムから着想を得ています:
- 作業記憶:現在の観察から短命なコンテキストをバッファリング
- エピソード記憶:過去の相互作用からの経験を保存
- 内部モデル:将来の状態進化を想像
技術的実装
フレームワークはいくつかの主要なコンポーネントで構成されています:
- 事前学習済みビジョランゲージモデル(VLM)が現在の観察を認知的トークンに符号化
- 知覚認知メモリバンクが過去の相互作用から低レベルの詳細と高レベルのセマンティクスを保存
- 世界モデルがノイズ除去潜在空間で将来の状態を想像
- 拡散アクションエキスパートが一時的に一貫したアクションシーケンスを予測
実験結果
MemoryVLA++は5つのシミュレーションベンチマークと3つの実ロボットタスクカテゴリで評価され、一般的な操作(+9%)、記憶依存タスク(+26%)、想像依存タスク(+28%)で顕著なパフォーマンス向上が見られました。
