Un equipo de investigadores del MIT CSAIL ha presentado Ambient Diffusion Policy, un método simple pero fundamentado para aprendizaje por imitación a partir de datos robóticos subóptimos. El enfoque aborda uno de los desafíos más apremiantes en robótica: cómo utilizar eficazmente datos de demostración abundantes de menor calidad junto con demostraciones de experto escasas y de alta calidad.
Los investigadores observaron que Diffusion Policy aprende diferentes características de los datos de acción robótica en diferentes niveles de ruido, impulsado por una ley de potencia espectral. Ambient Diffusion Policy restringe los datos subóptimos para que contribuyan solo en tiempos de difusión altos y bajos.
La implementación es notablemente simple: requiere solo un cambio en el cargador de datos de Diffusion Policy. El método se valida en cuatro tipos de datos de acción subóptimos en seis tareas robóticas. Cuando se escala a Open X-Embodiment, supera las líneas base existentes hasta en un 33%.
Este trabajo expande el conjunto de fuentes de datos utilizables en robótica y reduce la dependencia de demostraciones de experto costosas, acelerando potencialmente el desarrollo de políticas robóticas de propósito general.



