El Cuello de Botella Oculto en la IA Encarnada
PhysTool-Bench, presentado por investigadores de la Universidad de Gestión de Singapur y la Universidad Politécnica de Hong Kong en un artículo publicado en arXiv (2606.10803) el 9 de junio de 2026, es el primer benchmark integral diseñado para evaluar la capacidad de los MLLMs para reconocer, seleccionar y planificar el uso de herramientas físicas en escenarios del mundo real.
El benchmark comprende 2,510 consultas sobre 2,678 herramientas físicas reales que abarcan diversos dominios, incluidos fabricación, trabajo eléctrico, agricultura y atención médica. Incluso el modelo más fuerte, Gemini-3.1-Pro, identificó solo el 58.7% de las herramientas en una escena y completó solo el 21.0% de las consultas de extremo a extremo.
El análisis revela que la brecha principal no está en la percepción sino en el "sentido común funcional" — la capacidad de conectar el reconocimiento visual con la semántica práctica de las tareas. Esto se identifica como el cuello de botella central para el despliegue práctico de IA encarnada.
Artículo: arXiv:2606.10803 - "Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use"
