EG
Ambient Diffusion Policy手法概要:最適でないデータが拡散ポリシー学習中に低ノイズと高ノイズレベルに制限される仕組み
ResearchJune 15, 2026Embodied Global Team

Ambient Diffusion Policy:MITが提案する最適でないロボットデータからの模倣学習の原理的手法

MIT研究者らがAmbient Diffusion Policyを提案。ノイズ依存データ利用法により最適でないロボットデータから有用な特徴を抽出し、Open X-Embodimentで既存手法を最大33%上回る性能を達成。

#MIT#Diffusion Policy#Imitation Learning#Suboptimal Data#Open X-Embodiment#Robotics
Reading in JA

MIT CSAILの研究チームがAmbient Diffusion Policyを発表しました。これは最適でないロボットデータからの模倣学習のための、シンプルでありながら原理的な手法です。このアプローチはロボット工学における最も差し迫った課題の一つ、すなわち豊富だが低品質なデモデータと希少な高品質エキスパートデモデータを効果的に活用する方法に取り組みます。

研究者らは、拡散ポリシーが異なるノイズレベルでロボット行動データの異なる特徴を学習することを発見しました。これは行動データのスペクトルパワー則に起因します。Ambient Diffusion Policyは、最適でないデータが高拡散時間と低拡散時間のみで貢献するよう制限します。

実装は驚くほどシンプルで、Diffusion Policyのデータローダーに対する1つの変更のみが必要です。本手法は4種類の最適でない行動データ(ノイズを含む軌跡、シミュレーション-実機ギャップ、タスク不一致、大規模データ混合)で6つのロボットタスクにおいて検証されました。

特筆すべきは、データ品質が不均一で分布シフトの大きい大規模データセットOpen X-Embodimentにスケールした場合、既存の共学習ベースラインを最大33%上回る性能を示したことです。この研究はロボット工学で利用可能なデータソースの範囲を拡大し、高コストなエキスパートデモへの依存を低減することで、汎用ロボットポリシーの開発を加速する可能性を秘めています。

Language: JA- Showing content in JA