MIT CSAILの研究チームがAmbient Diffusion Policyを発表しました。これは最適でないロボットデータからの模倣学習のための、シンプルでありながら原理的な手法です。このアプローチはロボット工学における最も差し迫った課題の一つ、すなわち豊富だが低品質なデモデータと希少な高品質エキスパートデモデータを効果的に活用する方法に取り組みます。
研究者らは、拡散ポリシーが異なるノイズレベルでロボット行動データの異なる特徴を学習することを発見しました。これは行動データのスペクトルパワー則に起因します。Ambient Diffusion Policyは、最適でないデータが高拡散時間と低拡散時間のみで貢献するよう制限します。
実装は驚くほどシンプルで、Diffusion Policyのデータローダーに対する1つの変更のみが必要です。本手法は4種類の最適でない行動データ(ノイズを含む軌跡、シミュレーション-実機ギャップ、タスク不一致、大規模データ混合)で6つのロボットタスクにおいて検証されました。
特筆すべきは、データ品質が不均一で分布シフトの大きい大規模データセットOpen X-Embodimentにスケールした場合、既存の共学習ベースラインを最大33%上回る性能を示したことです。この研究はロボット工学で利用可能なデータソースの範囲を拡大し、高コストなエキスパートデモへの依存を低減することで、汎用ロボットポリシーの開発を加速する可能性を秘めています。



