NVIDIA ResearchはSpatialClawを発表した。これは追加のトレーニングを必要とせずにAIモデルが空間推論タスクを実行できるようにする画期的なアプローチである。事前定義されたツール呼び出しの代わりに、SpatialClawはDepth Anything 3やSAM 3などの知覚ツールを呼び出すPythonコードをモデルが直接生成し、出力を自由に組み合わせることを可能にする。
中核となる革新は「コードをアクションインターフェースとして」という設計だ。従来の手法ではモデルは固定された出力を持つ事前定義ツールを呼び出す必要があり、柔軟性に欠けていた。SpatialClawではモデルがその場でPythonコードを書き、ループや条件分岐、あらゆる知覚ツールの組み合わせを使って空間問題を解決する。
主要な成果:
- トレーニング不要:全バックボーンモデルで同じプロンプトとツールセットが機能
- 20の空間推論ベンチマーク:平均精度59.9%、SpaceToolsを11.2ポイント上回る
- コードとしての解釈可能な推論:生成コード自体が推論プロセスを記録
- 完全オープンソース:GitHubでコード公開
SpatialClawは、行動インターフェースを再設計するだけで—モデルパラメータやトレーニングコストを増やさずに—空間推論能力を劇的に向上できることを証明している。
