EG
研究所で精密操作タスクを実行するロボットアーム
ResearchJune 9, 2026Embodied Global Team

VoLo:オープン語彙長水平操作のためのフィジカルオーケストレータ

VoLoAgentは、ロボットのCapabilitiesを開中断可能なツールとして扱うVLMベースの実用的オーケストレータを導入し、リアルタイムの計画と回復を伴う複雑なオープン語彙操作タスクの実行を可能にします。

Reading in JA

研究者は、オープン語彙長水平操作タスクのために異質なロボットCapabilitiesを中断可能なツールとして調整するVision-Language Model(VLM)であるVoLoAgentを開発しました。

仮想AIエージェントとは異なり、物理的世界は推論のために一時停止しません—決定、アクション、ツール呼び出しのタイミングが重要です。VoLoAgentは、VLAVision-Language-Action)モデルを中断可能なツールとして扱い、リアルタイムで計画、監視、回復することでこれに対処します。

チームは、ロボVoLoという、オープン語彙長水平操作を評価するための高忠実度ベンチマークを導入しました。

実験により、VoLoAgentは単一のVLA/VLMまたはツールベースのシステムよりも大幅に優れています。