はじめに:具身型AIにおけるVLA革命
VLA(視覚-言語-行動)モデルは、マルチモーダル理解と物理的相互作用の融合を体現している。本稿では、RT-2、OpenVLA、ACE-Ego、Qwen-Robot、RLDX-1、EgoEMGの6つの主要モデルを包括的に比較する。
RT-2(Google DeepMind)
55Bパラメータの先駆的モデル。既知タスク成功率62%、新規タスク48%。プロプライエタリ、8xA100 GPUが必要。
OpenVLA(Stanford/Berkeley)
7Bパラメータのオープンソースモデル。100万以上の軌跡で訓練。58.7%/43.2%。1x RTX 4090で動作可能。
ACE-Ego(CUHK - SOTA)
現時点で最高性能:既知タスク87.3%、新規71.6%。一人称視点のエゴセントリック学習が優位性を実証。
Qwen-Robot(Alibaba)
Qwen2.5-VL基盤の72Bモデル。産業組立79.4%。製造シナリオで卓越。
RLDX-1(RLWRLD)
8Bパラメータ、拡散ポリシーデコーダ採用。長期タスク76.8%。
EgoEMG(清華大学)
6Bパラメータ、エゴセントリック視覚とEMG信号を融合。巧緻操作84.2%。CCライセンスで公開。
総合分析
ACE-Egoが総合性能でリード。OpenVLAは最高のオープン性を提供。中国の研究機関(CUHK、Alibaba、清華)が6位中3位を占めている。

