新しい研究論文が、長期的ロボット操作タスク向けに設計された持続的メモリを備えた効率的な世界動作モデルMemoryWAMを発表した。2026年6月にarXivで公開されたこの研究は、世界動作モデル(WAM)の根本的なトレードオフに取り組んでいる。効率的な手法は通常限られた最近の観測のみに依存し非マルコフ環境で苦戦する一方、長期的履歴を保持する手法は時間的・空間的コストが法外になる。
MemoryWAMは3種類の情報を統合するハイブリッドメモリ構造を採用:詳細な短期コンテキストのための最近のフレーム、主要な遷移瞬間を捉えるイベント境界アンカーフレーム、長期的履歴情報を要約するコンパクトな「gistトークン」。カスタム注意メカニズムが詳細な短期コンテキストと高度に圧縮された長期コンテキストを同時に取得し、推論遅延とGPUメモリ使用量を大幅に削減しながら、メモリ依存の意思決定をサポートする。
モデルはシミュレーション環境と実世界環境の両方で、一連の長期的・メモリ依存操作タスクで評価された。結果は、MemoryWAMが強力なVision-Language-Action(VLA)モデルや各種WAMベースラインを有意に上回り、優れた計算効率を維持することを示している。
この研究は、拡張タスクシーケンス全体にわたって持続的な注意と記憶を必要とする複雑な実世界環境でロボットが効果的に動作するための重要な一歩を表している。ハイブリッドメモリアプローチは、物理ロボティクスに基盤モデルを展開する際の主要なボトルネックとなっていたコンテキスト長のスケーリング問題に対する実用的な解決策を提供する。

