EG
Un brazo robótico interactuando con herramientas y piezas mecánicas en un banco de trabajo en un entorno de laboratorio
ResearchJune 14, 2026Embodied Global Team

PhysTool-Bench Revela un Cuello de Botella Crítico: Incluso los Mejores MLLMs Fallan en el Uso de Herramientas Físicas

Un nuevo benchmark, PhysTool-Bench, revela que incluso el MLLM más potente (Gemini-3.1-Pro) identifica solo el 58.7% de las herramientas físicas en una escena y completa apenas el 21.0% de las tareas de extremo a extremo, exponiendo una brecha crítica de 'sentido común funcional' entre el dominio de herramientas digitales y el despliegue de IA encarnada en el mundo real.

#phystool-bench#mllm#physical-tool-use#embodied-ai#benchmark#functional-commonsense
Reading in Spanish

El Cuello de Botella Oculto en la IA Encarnada

PhysTool-Bench, presentado por investigadores de la Universidad de Gestión de Singapur y la Universidad Politécnica de Hong Kong en un artículo publicado en arXiv (2606.10803) el 9 de junio de 2026, es el primer benchmark integral diseñado para evaluar la capacidad de los MLLMs para reconocer, seleccionar y planificar el uso de herramientas físicas en escenarios del mundo real.

El benchmark comprende 2,510 consultas sobre 2,678 herramientas físicas reales que abarcan diversos dominios, incluidos fabricación, trabajo eléctrico, agricultura y atención médica. Incluso el modelo más fuerte, Gemini-3.1-Pro, identificó solo el 58.7% de las herramientas en una escena y completó solo el 21.0% de las consultas de extremo a extremo.

El análisis revela que la brecha principal no está en la percepción sino en el "sentido común funcional" — la capacidad de conectar el reconocimiento visual con la semántica práctica de las tareas. Esto se identifica como el cuello de botella central para el despliegue práctico de IA encarnada.

Artículo: arXiv:2606.10803 - "Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use"

Language: Spanish- Showing content in Spanish