研究者は、オープン語彙長水平操作タスクのために異質なロボットCapabilitiesを中断可能なツールとして調整するVision-Language Model(VLM)であるVoLoAgentを開発しました。
仮想AIエージェントとは異なり、物理的世界は推論のために一時停止しません—決定、アクション、ツール呼び出しのタイミングが重要です。VoLoAgentは、VLA(Vision-Language-Action)モデルを中断可能なツールとして扱い、リアルタイムで計画、監視、回復することでこれに対処します。
チームは、ロボVoLoという、オープン語彙長水平操作を評価するための高忠実度ベンチマークを導入しました。
実験により、VoLoAgentは単一のVLA/VLMまたはツールベースのシステムよりも大幅に優れています。
