ACE Robotics(大晓机器人)は香港中文大学マルチメディアラボ(CUHK MMLab)と共同で、新たな「一脳多型」身体化操作VLA(Vision-Language-Action)モデル「ACE-Ego」を発表し、オープンソースとして公開した。
ACE-Egoは、ACE Roboticsの「人間中心(Human-centric)」ACE研究開発パラダイムのVLA事前学習における代表的な実装成果である。高コストの遠隔操作データ収集に依存する業界標準の「ロボット中心」アプローチとは異なり、ACE-Egoは大規模で低コストの一人称視点人間ビデオを、ロボット操作モデルの効果的な訓練信号に変換する。
本モデルは2つの主要な身体知能ベンチマークで最先端(SOTA)性能を達成した:
国際的に認知された人型ロボット操作ベンチマーク「RoboCasa GR1 TableTop」において、ACE-Egoは平均成功率72.8%を記録し、NVIDIA GR00T(47.6%)、PI π₀.₅、JD JoyAI-RA(63.2%)、小鵬DIAL(70.2%)を凌駕した。皿積みや鍋移しなどの特定タスクでは98%を超える成功率を達成している。
高難度の両腕操作ベンチマーク「RoboTwin 2.0」では、標準シナリオで91.12%、高度にランダム化されたシナリオで90.62%の成功率を達成。クリーン環境からランダム化環境への性能低下はわずか0.5ポイントであり、Tencent Hy-VLA(90.9%/90.1%)、JD JoyAI-RA(90.48%/89.28%)、Ant LingBot-VLA(88.56%/86.68%)、PI π₀.₅(82.74%/76.76%)を上回った。
ACE-Egoは、人間のビデオとロボットデータのギャップを埋める4つの中核メカニズムを導入している:統一カメラ空間動作表現、統一形態エンコーディング、時間整列動的チャンキング、信頼性適応型目的関数。これらは、空間座標系、身体構造、時間周波数、ラベル品質における四重の異種性課題を体系的に解決する。
実験結果は、大規模な一人称視点人間ビデオを共同事前学習に追加することで、RoboCasaでのモデル成功率が68.3%から72.8%に向上(絶対値で4.5%の改善)することを確認し、人間中心の大規模データ事前学習の重要な価値を証明している。
本モデルは、ビニール袋包装、靴箱梱包、コーヒー計量など、単純な机上面把持をはるかに超える長周期・高接触の複雑な小売業務において実用的な能力を実証している。
技術報告書はarXiv(2606.17200)で、プロジェクトページはhttps://acerobotics-vla.github.io/ACE-Ego/で公開されている。

