EG
Brazo robótico realizando tareas de manipulación de precisión en un laboratorio
ResearchJune 9, 2026Embodied Global Team

VoLo: Un Orquestador Físico para Manipulación de Horizonte Largo de Vocabulario Abierto

VoLoAgent presenta un orquestador físico basado en VLM que trata las capacidades del robot como herramientas interrumpibles, permitiendo a los robots realizar tareas complejas de manipulación de vocabulario abierto con planificación y recuperación en tiempo real.

Reading in Spanish

Los investigadores han desarrollado VoLoAgent, un Modelo de Visión-Lenguaje (VLM) que orquesta capacidades de robot heterogéneas como herramientas interrumpibles para tareas de manipulación de horizonte largo de vocabulario abierto.

A diferencia de los agentes de IA virtuales, el mundo físico no se detiene para razonar—la sincronización de decisiones, acciones y llamadas de herramientas es crítica. VoLoAgent aborda esto planificando, monitoreando y recuperándose en tiempo real, tratando un modelo VLA (Visión-Lenguaje-Acción) como una herramienta interrumpible que puede dirigir a mitad de la implementación.

El equipo presentó RoboVoLo, un benchmark de alta fidelidad para evaluar la manipulación de horizonte largo de vocabulario abierto.

Los experimentos muestran que VoLoAgent supera sustancialmente a los sistemas individuales de VLA/VLM o basados en herramientas.