EG
Descripción general del método Ambient Diffusion Policy que muestra cómo los datos subóptimos se restringen a niveles de ruido bajos y altos
ResearchJune 15, 2026Embodied Global Team

Ambient Diffusion Policy: El Método de MIT para Aprendizaje por Imitación desde Datos Robotizados Subóptimos

Investigadores del MIT proponen Ambient Diffusion Policy, un método que extrae características útiles de datos subóptimos usando uso de datos dependiente del ruido. Supera las líneas base en un 33% en Open X-Embodiment.

#MIT#Diffusion Policy#Imitation Learning#Suboptimal Data#Open X-Embodiment#Robotics
Reading in Spanish

Un equipo de investigadores del MIT CSAIL ha presentado Ambient Diffusion Policy, un método simple pero fundamentado para aprendizaje por imitación a partir de datos robóticos subóptimos. El enfoque aborda uno de los desafíos más apremiantes en robótica: cómo utilizar eficazmente datos de demostración abundantes de menor calidad junto con demostraciones de experto escasas y de alta calidad.

Los investigadores observaron que Diffusion Policy aprende diferentes características de los datos de acción robótica en diferentes niveles de ruido, impulsado por una ley de potencia espectral. Ambient Diffusion Policy restringe los datos subóptimos para que contribuyan solo en tiempos de difusión altos y bajos.

La implementación es notablemente simple: requiere solo un cambio en el cargador de datos de Diffusion Policy. El método se valida en cuatro tipos de datos de acción subóptimos en seis tareas robóticas. Cuando se escala a Open X-Embodiment, supera las líneas base existentes hasta en un 33%.

Este trabajo expande el conjunto de fuentes de datos utilizables en robótica y reduce la dependencia de demostraciones de experto costosas, acelerando potencialmente el desarrollo de políticas robóticas de propósito general.

Language: Spanish- Showing content in Spanish