EG
Bras robot effectuant des tâches de manipulation de précision en laboratoire
ResearchJune 9, 2026Embodied Global Team

VoLo: Un Orchestrateur Physique pour la Manipulation à Horizon Long en Vocabulaire Ouvert

VoLoAgent présente un orchestrateur physique basé sur un VLM qui traite les capacités du robot comme des outils interruptibles, permettant aux robots d'effectuer des tâches de manipulation complexes en vocabulaire ouvert avec une planification et une récupération en temps réel.

Reading in French

Les chercheurs ont développé VoLoAgent, un modèle Vision-Langage (VLM) qui orchestre des capacités de robot hétérogènes comme outils interruptibles pour des tâches de manipulation à horizon long en vocabulaire ouvert.

Contrairement aux agents d'IA virtuels, le monde physique ne s'arrête pas pour raisonner—le timing des décisions, actions et appels d'outils est critique. VoLoAgent aborde cela en planifiant, surveillant et récupérant en temps réel.

L'équipe a introduit RoboVoLo, un benchmark haute fidélité pour évaluer la manipulation à horizon long en vocabulaire ouvert.

Les expériences montrent que VoLoAgent surpasse considérablement les systèmes individuels VLA/VLM ou basés sur des outils.