EG
ACE-Ego VLAモデルの概要。一人称視点の人間ビデオと多様な形態のロボットデータを統合したVLA事前学習を示す
ResearchJune 17, 2026Embodied Global Team

ACE Roboticsと香港中文大学、2つの主要ベンチマークでSOTAを達成したVLAモデル「ACE-Ego」をオープンソース公開

ACE RoboticsとCUHK MMLabがVLAモデル「ACE-Ego」をオープンソース公開。RoboCasa GR1(72.8%)とRoboTwin 2.0(90.62%)でSOTAを達成。人間中心のAIアプローチ。

#ACE Robotics#大晓机器人#CUHK#VLA#ACE-Ego#embodied AI#open source#robot manipulation#具身智能
Reading in JA

ACE Robotics(大晓机器人)は香港中文大学マルチメディアラボ(CUHK MMLab)と共同で、新たな「一脳多型」身体化操作VLAVision-Language-Action)モデル「ACE-Ego」を発表し、オープンソースとして公開した。

ACE-Egoは、ACE Roboticsの「人間中心(Human-centric)」ACE研究開発パラダイムのVLA事前学習における代表的な実装成果である。高コストの遠隔操作データ収集に依存する業界標準の「ロボット中心」アプローチとは異なり、ACE-Egoは大規模で低コストの一人称視点人間ビデオを、ロボット操作モデルの効果的な訓練信号に変換する。

本モデルは2つの主要な身体知能ベンチマークで最先端(SOTA)性能を達成した:

国際的に認知された人型ロボット操作ベンチマーク「RoboCasa GR1 TableTop」において、ACE-Egoは平均成功率72.8%を記録し、NVIDIA GR00T(47.6%)、PI π₀.₅、JD JoyAI-RA(63.2%)、小鵬DIAL(70.2%)を凌駕した。皿積みや鍋移しなどの特定タスクでは98%を超える成功率を達成している。

高難度の両腕操作ベンチマーク「RoboTwin 2.0」では、標準シナリオで91.12%、高度にランダム化されたシナリオで90.62%の成功率を達成。クリーン環境からランダム化環境への性能低下はわずか0.5ポイントであり、Tencent Hy-VLA(90.9%/90.1%)、JD JoyAI-RA(90.48%/89.28%)、Ant LingBot-VLA(88.56%/86.68%)、PI π₀.₅(82.74%/76.76%)を上回った。

ACE-Egoは、人間のビデオとロボットデータのギャップを埋める4つの中核メカニズムを導入している:統一カメラ空間動作表現、統一形態エンコーディング、時間整列動的チャンキング、信頼性適応型目的関数。これらは、空間座標系、身体構造、時間周波数、ラベル品質における四重の異種性課題を体系的に解決する。

実験結果は、大規模な一人称視点人間ビデオを共同事前学習に追加することで、RoboCasaでのモデル成功率が68.3%から72.8%に向上(絶対値で4.5%の改善)することを確認し、人間中心の大規模データ事前学習の重要な価値を証明している。

本モデルは、ビニール袋包装、靴箱梱包、コーヒー計量など、単純な机上面把持をはるかに超える長周期・高接触の複雑な小売業務において実用的な能力を実証している。

技術報告書はarXiv(2606.17200)で、プロジェクトページはhttps://acerobotics-vla.github.io/ACE-Ego/で公開されている。

Language: JA- Showing content in JA