EG
VLAモデル比較図と操作タスクを実行するロボット
ResearchJune 18, 2026Embodied Global Team

2026年主要VLAモデル比較:視覚-言語-行動アーキテクチャのパフォーマンスベンチマーク

2026年の主要VLAモデルを包括比較:RT-2、OpenVLA、ACE-Ego、Qwen-Robot、RLDX-1、EgoEMG。訓練データ、成功率、汎化性能、オープンソース状況、導入ハードウェア要件を比較。

#VLA model#vision language action#embodied AI benchmark#RT-2#OpenVLA#ACE-Ego#Qwen-Robot#RLDX-1#EgoEMG#model comparison
Reading in JA

はじめに:具身型AIにおけるVLA革命

VLA(視覚-言語-行動)モデルは、マルチモーダル理解と物理的相互作用の融合を体現している。本稿では、RT-2、OpenVLA、ACE-Ego、Qwen-Robot、RLDX-1、EgoEMGの6つの主要モデルを包括的に比較する。

RT-2(Google DeepMind)

55Bパラメータの先駆的モデル。既知タスク成功率62%、新規タスク48%。プロプライエタリ、8xA100 GPUが必要。

OpenVLA(Stanford/Berkeley)

7Bパラメータのオープンソースモデル。100万以上の軌跡で訓練。58.7%/43.2%。1x RTX 4090で動作可能。

ACE-Ego(CUHK - SOTA)

現時点で最高性能:既知タスク87.3%、新規71.6%。一人称視点のエゴセントリック学習が優位性を実証。

Qwen-Robot(Alibaba)

Qwen2.5-VL基盤の72Bモデル。産業組立79.4%。製造シナリオで卓越。

RLDX-1(RLWRLD)

8Bパラメータ、拡散ポリシーデコーダ採用。長期タスク76.8%。

EgoEMG(清華大学)

6Bパラメータ、エゴセントリック視覚とEMG信号を融合。巧緻操作84.2%。CCライセンスで公開。

総合分析

ACE-Egoが総合性能でリード。OpenVLAは最高のオープン性を提供。中国の研究機関(CUHK、Alibaba、清華)が6位中3位を占めている。

Language: JA- Showing content in JA