EG
空間推論とコード生成の概念を示す青と紫の光るノードを持つAIニューラルネットワーク視覚化
ResearchJune 20, 2026Embodied Global Team

NVIDIA ResearchがSpatialClawを発表:「コードをアクションとして」使うゼロトレーニング空間推論

NVIDIA ResearchがSpatialClawを発表。AIモデルがPythonコードを生成して知覚ツールを組み合わせ空間推論を行うゼロトレーニング手法で、20ベンチマークで平均59.9%の精度を達成。

#NVIDIA#SpatialClaw#spatial reasoning#code as action#VLM#Research
Reading in JA

NVIDIA ResearchはSpatialClawを発表した。これは追加のトレーニングを必要とせずにAIモデルが空間推論タスクを実行できるようにする画期的なアプローチである。事前定義されたツール呼び出しの代わりに、SpatialClawはDepth Anything 3やSAM 3などの知覚ツールを呼び出すPythonコードをモデルが直接生成し、出力を自由に組み合わせることを可能にする。

中核となる革新は「コードをアクションインターフェースとして」という設計だ。従来の手法ではモデルは固定された出力を持つ事前定義ツールを呼び出す必要があり、柔軟性に欠けていた。SpatialClawではモデルがその場でPythonコードを書き、ループや条件分岐、あらゆる知覚ツールの組み合わせを使って空間問題を解決する。

主要な成果:

  • トレーニング不要:全バックボーンモデルで同じプロンプトとツールセットが機能
  • 20の空間推論ベンチマーク:平均精度59.9%、SpaceToolsを11.2ポイント上回る
  • コードとしての解釈可能な推論:生成コード自体が推論プロセスを記録
  • 完全オープンソース:GitHubでコード公開

SpatialClawは、行動インターフェースを再設計するだけで—モデルパラメータやトレーニングコストを増やさずに—空間推論能力を劇的に向上できることを証明している。

Source: DeepTech, NVIDIA Research Blog, Toutiao
Language: JA- Showing content in JA