EG
実験室の作業台で工具や機械部品と相互作用するロボットアーム
ResearchJune 14, 2026Embodied Global Team

PhysTool-Benchが明らかにした重大なボトルネック:最高のMLLMでも物理ツール使用に失敗

新しいベンチマークPhysTool-Benchは、最強のMLLM(Gemini-3.1-Pro)でもシーン内の物理ツールの58.7%しか識別できず、エンドツーエンドのタスク完了率はわずか21.0%であることを明らかにし、デジタルツールの習熟と実世界の具身AI展開の間に存在する「機能的常識」のギャップを浮き彫りにした。

#phystool-bench#mllm#physical-tool-use#embodied-ai#benchmark#functional-commonsense
Reading in JA

具身AIの隠れたボトルネック

シンガポール経営大学と香港理工大学の研究者らが2026年6月9日にarXiv(2606.10803)で発表したPhysTool-Benchは、実世界シナリオにおけるMLLMの物理ツールの認識、選択、使用計画能力を評価する初の包括的ベンチマークである。

ベンチマークは製造、電気工事、農業、医療など多様な分野にわたる2,678の実世界物理ツールに対する2,510のクエリで構成される。最強モデルのGemini-3.1-Proでも、シーン内のツールの58.7%しか識別できず、エンドツーエンドのクエリ完了率はわずか21.0%だった。

分析によれば、主なボトルネックは知覚ではなく「機能的常識(functional commonsense)」— 視覚認識と実践的なタスク意味論を結びつける能力 — にある。これが実用的な具身AI展開の中心的な障壁として特定された。

論文: arXiv:2606.10803 - 「Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use」

Language: JA- Showing content in JA