EG
Un bras robotique interagissant avec des outils et des pièces mécaniques sur un établi dans un cadre de laboratoire
ResearchJune 14, 2026Embodied Global Team

PhysTool-Bench Révèle un Goulot d'Étranglement Critique : Même les Meilleurs MLLMs Échouent dans l'Utilisation d'Outils Physiques

Un nouveau benchmark, PhysTool-Bench, révèle que même le MLLM le plus puissant (Gemini-3.1-Pro) n'identifie que 58,7% des outils physiques dans une scène et ne termine que 21,0% des tâches de bout en bout, exposant un fossé critique de 'bon sens fonctionnel' entre la maîtrise des outils numériques et le déploiement de l'IA incarnée dans le monde réel.

#phystool-bench#mllm#physical-tool-use#embodied-ai#benchmark#functional-commonsense
Reading in French

Le Goulot d'Étranglement Caché dans l'IA Incarnée

PhysTool-Bench, introduit par des chercheurs de l'Université de gestion de Singapour et de l'Université polytechnique de Hong Kong dans un article publié sur arXiv (2606.10803) le 9 juin 2026, est le premier benchmark complet conçu pour évaluer la capacité des MLLMs à reconnaître, sélectionner et planifier l'utilisation d'outils physiques dans des scénarios réels.

Le benchmark comprend 2,510 requêtes portant sur 2,678 outils physiques réels couvrant divers domaines, notamment la fabrication, les travaux électriques, l'agriculture et les soins de santé. Même le modèle le plus puissant, Gemini-3.1-Pro, n'a identifié que 58,7% des outils dans une scène et n'a complété que 21,0% des requêtes de bout en bout.

L'analyse révèle que le principal goulet d'étranglement n'est pas la perception mais le « bon sens fonctionnel » — la capacité de relier la reconnaissance visuelle à la sémantique pratique des tâches. Ceci est identifié comme le goulot d'étranglement central pour le déploiement pratique de l'IA incarnée.

Article: arXiv:2606.10803 - "Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use"

Language: French- Showing content in French