Los investigadores han desarrollado VoLoAgent, un Modelo de Visión-Lenguaje (VLM) que orquesta capacidades de robot heterogéneas como herramientas interrumpibles para tareas de manipulación de horizonte largo de vocabulario abierto.
A diferencia de los agentes de IA virtuales, el mundo físico no se detiene para razonar—la sincronización de decisiones, acciones y llamadas de herramientas es crítica. VoLoAgent aborda esto planificando, monitoreando y recuperándose en tiempo real, tratando un modelo VLA (Visión-Lenguaje-Acción) como una herramienta interrumpible que puede dirigir a mitad de la implementación.
El equipo presentó RoboVoLo, un benchmark de alta fidelidad para evaluar la manipulación de horizonte largo de vocabulario abierto.
Los experimentos muestran que VoLoAgent supera sustancialmente a los sistemas individuales de VLA/VLM o basados en herramientas.
