Le Goulot d'Étranglement Caché dans l'IA Incarnée
PhysTool-Bench, introduit par des chercheurs de l'Université de gestion de Singapour et de l'Université polytechnique de Hong Kong dans un article publié sur arXiv (2606.10803) le 9 juin 2026, est le premier benchmark complet conçu pour évaluer la capacité des MLLMs à reconnaître, sélectionner et planifier l'utilisation d'outils physiques dans des scénarios réels.
Le benchmark comprend 2,510 requêtes portant sur 2,678 outils physiques réels couvrant divers domaines, notamment la fabrication, les travaux électriques, l'agriculture et les soins de santé. Même le modèle le plus puissant, Gemini-3.1-Pro, n'a identifié que 58,7% des outils dans une scène et n'a complété que 21,0% des requêtes de bout en bout.
L'analyse révèle que le principal goulet d'étranglement n'est pas la perception mais le « bon sens fonctionnel » — la capacité de relier la reconnaissance visuelle à la sémantique pratique des tâches. Ceci est identifié comme le goulot d'étranglement central pour le déploiement pratique de l'IA incarnée.
Article: arXiv:2606.10803 - "Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use"
