Xiaomi ha realizado una contribución significativa a la comunidad de IA incorporada al publicar como código abierto el pipeline completo de post-entrenamiento del mundo real para su modelo grande Visión-Lenguaje-Acción (VLA), Xiaomi-Robotics-0.
El lanzamiento de código abierto cubre todo el pipeline, desde la recolección de datos hasta el ajuste fino del modelo, permitiendo a investigadores y desarrolladores replicar y construir sobre el enfoque de Xiaomi. El equipo demostró que con solo aproximadamente 20 horas de datos específicos de la tarea, un robot podía dominar tareas de precisión complejas como el almacenamiento de auriculares, una operación que requiere precisión de alineación sub-milimétrica.
Esto representa una reducción dramática en los requisitos de datos para la adquisición de habilidades. La programación robótica tradicional a menudo requiere miles de horas de demostraciones o extenso aprendizaje por refuerzo en simulación. El enfoque de Xiaomi muestra que con la metodología de post-entrenamiento adecuada, los robots pueden aprender habilidades complejas a partir de cantidades relativamente modestas de datos del mundo real.
