具身AIの隠れたボトルネック
シンガポール経営大学と香港理工大学の研究者らが2026年6月9日にarXiv(2606.10803)で発表したPhysTool-Benchは、実世界シナリオにおけるMLLMの物理ツールの認識、選択、使用計画能力を評価する初の包括的ベンチマークである。
ベンチマークは製造、電気工事、農業、医療など多様な分野にわたる2,678の実世界物理ツールに対する2,510のクエリで構成される。最強モデルのGemini-3.1-Proでも、シーン内のツールの58.7%しか識別できず、エンドツーエンドのクエリ完了率はわずか21.0%だった。
分析によれば、主なボトルネックは知覚ではなく「機能的常識(functional commonsense)」— 視覚認識と実践的なタスク意味論を結びつける能力 — にある。これが実用的な具身AI展開の中心的な障壁として特定された。
論文: arXiv:2606.10803 - 「Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use」
