EG
Vista general del modelo VLA ACE-Ego que muestra la unificación de video humano egocéntrico y datos de robots de múltiples formas para preentrenamiento VLA
ResearchJune 17, 2026Embodied Global Team

ACE Robotics y CUHK lanzan en código abierto el modelo VLA ACE-Ego, logrando SOTA en dos referencias principales

ACE Robotics y CUHK MMLab lanzan en código abierto el modelo VLA ACE-Ego, logrando SOTA en RoboCasa GR1 (72.8%) y RoboTwin 2.0 (90.62%) con enfoque de IA centrado en el ser humano.

#ACE Robotics#大晓机器人#CUHK#VLA#ACE-Ego#embodied AI#open source#robot manipulation#具身智能
Reading in Spanish

ACE Robotics (大晓机器人), en colaboración con el Laboratorio Multimedia de la Universidad China de Hong Kong (CUHK MMLab), ha anunciado hoy el lanzamiento de código abierto de ACE-Ego, un novedoso modelo VLA (Visión-Lenguaje-Acción) de operación corporizada con arquitectura 'un cerebro, múltiples formas'.

ACE-Ego representa la implementación insignia del paradigma de I+D 'centrado en el ser humano' de ACE Robotics para el preentrenamiento VLA. A diferencia del enfoque estándar de la industria 'centrado en el robot' que depende de costosa recolección de datos de teleoperación, ACE-Ego convierte videos humanos en primera persona de gran escala y bajo costo en señales de entrenamiento efectivas para modelos de manipulación robótica.

El modelo alcanza resultados de última generación (SOTA) en dos importantes referencias de inteligencia corporizada:

En RoboCasa GR1 TableTop — un benchmark internacionalmente reconocido de manipulación humanoide — ACE-Ego logra una tasa de éxito promedio del 72.8%, superando a NVIDIA GR00T (47.6%), PI π₀.₅, JD JoyAI-RA (63.2%) y XPeng DIAL (70.2%). En tareas específicas como apilar platos y transferir ollas, ACE-Ego supera el 98% de éxito.

En RoboTwin 2.0 — un exigente benchmark de manipulación bimanual — ACE-Ego alcanza el 91.12% en escenarios limpios y el 90.62% en escenarios altamente aleatorizados, demostrando una robusta adaptabilidad ambiental con solo 0.5 puntos porcentuales de degradación del rendimiento. Esto supera a Tencent Hy-VLA (90.9%/90.1%), JD JoyAI-RA (90.48%/89.28%), Ant LingBot-VLA (88.56%/86.68%) y PI π₀.₅ (82.74%/76.76%).

ACE-Ego introduce cuatro mecanismos centrales para puentear la brecha entre video humano y datos robóticos: representación unificada de acciones en espacio de cámara, codificación unificada de morfología, segmentación dinámica alineada temporalmente y funciones objetivo adaptativas conscientes de confiabilidad. Estos resuelven sistemáticamente el desafío de heterogeneidad cuádruple en sistemas de coordenadas espaciales, estructuras corporales, frecuencias temporales y calidad de etiquetas.

Los resultados experimentales confirman que la adición de video humano en primera persona a gran escala para preentrenamiento conjunto mejora la tasa de éxito del modelo del 68.3% al 72.8% en RoboCasa — una ganancia absoluta del 4.5% — demostrando el valor significativo del preentrenamiento de datos a gran escala centrado en el ser humano.

El modelo ha demostrado capacidades prácticas en operaciones minoristas complejas, incluyendo empaquetado de bolsas de plástico, empaquetado de cajas de zapatos y dispensación de café — tareas que requieren manipulación de largo horizonte y alto contacto, mucho más allá de la simple manipulación en mesa.

El informe técnico está disponible en arXiv (2606.17200), y la página del proyecto en https://acerobotics-vla.github.io/ACE-Ego/.

Language: Spanish- Showing content in Spanish