ACE Robotics (大晓机器人), en colaboración con el Laboratorio Multimedia de la Universidad China de Hong Kong (CUHK MMLab), ha anunciado hoy el lanzamiento de código abierto de ACE-Ego, un novedoso modelo VLA (Visión-Lenguaje-Acción) de operación corporizada con arquitectura 'un cerebro, múltiples formas'.
ACE-Ego representa la implementación insignia del paradigma de I+D 'centrado en el ser humano' de ACE Robotics para el preentrenamiento VLA. A diferencia del enfoque estándar de la industria 'centrado en el robot' que depende de costosa recolección de datos de teleoperación, ACE-Ego convierte videos humanos en primera persona de gran escala y bajo costo en señales de entrenamiento efectivas para modelos de manipulación robótica.
El modelo alcanza resultados de última generación (SOTA) en dos importantes referencias de inteligencia corporizada:
En RoboCasa GR1 TableTop — un benchmark internacionalmente reconocido de manipulación humanoide — ACE-Ego logra una tasa de éxito promedio del 72.8%, superando a NVIDIA GR00T (47.6%), PI π₀.₅, JD JoyAI-RA (63.2%) y XPeng DIAL (70.2%). En tareas específicas como apilar platos y transferir ollas, ACE-Ego supera el 98% de éxito.
En RoboTwin 2.0 — un exigente benchmark de manipulación bimanual — ACE-Ego alcanza el 91.12% en escenarios limpios y el 90.62% en escenarios altamente aleatorizados, demostrando una robusta adaptabilidad ambiental con solo 0.5 puntos porcentuales de degradación del rendimiento. Esto supera a Tencent Hy-VLA (90.9%/90.1%), JD JoyAI-RA (90.48%/89.28%), Ant LingBot-VLA (88.56%/86.68%) y PI π₀.₅ (82.74%/76.76%).
ACE-Ego introduce cuatro mecanismos centrales para puentear la brecha entre video humano y datos robóticos: representación unificada de acciones en espacio de cámara, codificación unificada de morfología, segmentación dinámica alineada temporalmente y funciones objetivo adaptativas conscientes de confiabilidad. Estos resuelven sistemáticamente el desafío de heterogeneidad cuádruple en sistemas de coordenadas espaciales, estructuras corporales, frecuencias temporales y calidad de etiquetas.
Los resultados experimentales confirman que la adición de video humano en primera persona a gran escala para preentrenamiento conjunto mejora la tasa de éxito del modelo del 68.3% al 72.8% en RoboCasa — una ganancia absoluta del 4.5% — demostrando el valor significativo del preentrenamiento de datos a gran escala centrado en el ser humano.
El modelo ha demostrado capacidades prácticas en operaciones minoristas complejas, incluyendo empaquetado de bolsas de plástico, empaquetado de cajas de zapatos y dispensación de café — tareas que requieren manipulación de largo horizonte y alto contacto, mucho más allá de la simple manipulación en mesa.
El informe técnico está disponible en arXiv (2606.17200), y la página del proyecto en https://acerobotics-vla.github.io/ACE-Ego/.

