Une équipe de chercheurs du MIT CSAIL a présenté Ambient Diffusion Policy, une méthode simple mais fondée pour l'apprentissage par imitation à partir de données robotiques sous-optimales. L'approche répond à l'un des défis les plus pressants en robotique: comment utiliser efficacement les données de démonstration abondantes mais de moindre qualité aux côtés de démonstrations expertes rares et de haute qualité.
Les chercheurs ont observé que Diffusion Policy apprend différentes caractéristiques des données d'action robotique à différents niveaux de bruit. Ambient Diffusion Policy restreint les données sous-optimales à ne contribuer qu'aux temps de diffusion élevés et faibles.
La mise en œuvre est remarquablement simple: elle ne nécessite qu'un seul changement dans le chargeur de données de Diffusion Policy. La méthode est validée sur quatre types de données d'action sous-optimales dans six tâches robotiques. Lorsqu'elle est étendue à Open X-Embodiment, elle surpasse les bases existantes jusqu'à 33%.
Ce travail élargit l'ensemble des sources de données utilisables en robotique et réduit la dépendance aux démonstrations expertes coûteuses, accélérant potentiellement le développement de politiques robotiques polyvalentes.



