Les chercheurs ont développé VoLoAgent, un modèle Vision-Langage (VLM) qui orchestre des capacités de robot hétérogènes comme outils interruptibles pour des tâches de manipulation à horizon long en vocabulaire ouvert.
Contrairement aux agents d'IA virtuels, le monde physique ne s'arrête pas pour raisonner—le timing des décisions, actions et appels d'outils est critique. VoLoAgent aborde cela en planifiant, surveillant et récupérant en temps réel.
L'équipe a introduit RoboVoLo, un benchmark haute fidélité pour évaluer la manipulation à horizon long en vocabulaire ouvert.
Les expériences montrent que VoLoAgent surpasse considérablement les systèmes individuels VLA/VLM ou basés sur des outils.
