ACE Robotics (大晓机器人), en collaboration avec le Laboratoire Multimédia de l'Université Chinoise de Hong Kong (CUHK MMLab), a annoncé aujourd'hui la publication en open source d'ACE-Ego, un nouveau modèle VLA (Vision-Langage-Action) d'opération incarnée à architecture 'un cerveau, plusieurs formes'.
ACE-Ego représente la mise en œuvre phare du paradigme de R&D 'centré sur l'humain' d'ACE Robotics pour le pré-entraînement VLA. Contrairement à l'approche standard de l'industrie 'centrée sur le robot' qui repose sur une collecte coûteuse de données de téléopération, ACE-Ego convertit des vidéos humaines à grande échelle en première personne et à faible coût en signaux d'entraînement efficaces pour les modèles de manipulation robotique.
Le modèle atteint des performances de pointe (SOTA) sur deux benchmarks majeurs d'intelligence incarnée :
Sur RoboCasa GR1 TableTop — un benchmark de manipulation humanoïde internationalement reconnu — ACE-Ego atteint un taux de réussite moyen de 72,8 %, surpassant NVIDIA GR00T (47,6 %), PI π₀.₅, JD JoyAI-RA (63,2 %) et XPeng DIAL (70,2 %). Dans des tâches spécifiques comme l'empilage d'assiettes et le transfert de casseroles, ACE-Ego dépasse les 98 % de réussite.
Sur RoboTwin 2.0 — un benchmark exigeant de manipulation bimanuelle — ACE-Ego atteint 91,12 % dans des scénarios standard et 90,62 % dans des scénarios fortement randomisés, démontrant une robustesse environnementale remarquable avec seulement 0,5 point de pourcentage de dégradation. Cela surpasse Tencent Hy-VLA (90,9 %/90,1 %), JD JoyAI-RA (90,48 %/89,28 %), Ant LingBot-VLA (88,56 %/86,68 %) et PI π₀.₅ (82,74 %/76,76 %).
ACE-Ego introduit quatre mécanismes essentiels pour combler le fossé entre les vidéos humaines et les données robotiques : représentation unifiée des actions dans l'espace caméra, encodage unifié de la morphologie, segmentation dynamique alignée temporellement et fonctions objectives adaptatives conscientes de la fiabilité. Ceux-ci résolvent systématiquement le défi de l'hétérogénéité quadruple dans les systèmes de coordonnées spatiales, les structures corporelles, les fréquences temporelles et la qualité des étiquettes.
Les résultats expérimentaux confirment que l'ajout de vidéos humaines en première personne à grande échelle pour le pré-entraînement conjoint améliore le taux de réussite du modèle de 68,3 % à 72,8 % sur RoboCasa — un gain absolu de 4,5 % — prouvant la valeur significative du pré-entraînement de données à grande échelle centré sur l'humain.
Le modèle a démontré des capacités pratiques dans des opérations de vente au détail complexes, notamment l'emballage de sacs en plastique, l'emballage de boîtes à chaussures et le dosage de café — des tâches nécessitant une manipulation à long horizon et à fort contact, bien au-delà de la simple manipulation sur table.
Le rapport technique est disponible sur arXiv (2606.17200), et la page du projet sur https://acerobotics-vla.github.io/ACE-Ego/.

