小米(Xiaomi)は、同社のビジョン・ランゲージ・アクション(VLA)大規模モデル「Xiaomi-Robotics-0」の実世界後訓練パイプライン全体をオープンソース化し、身体性AIコミュニティに重要な貢献を果たした。
このオープンソースリリースは、データ収集からモデルのファインチューニングまでの全パイプラインをカバーしており、研究者や開発者が小米のアプローチを再現し、その上に構築することを可能にする。チームは、わずか約20時間のタスク固有データで、ロボットがイヤホンの収納といったサブミリ精度の位置合わせを必要とする複雑な精密タスクを習得できることを実証した。
これは、スキル獲得に必要なデータ要件の劇的な削減を意味する。従来のロボットプログラミングでは、数千時間のデモンストレーションやシミュレーションでの広範な強化学習が必要とされることが多かった。小米のアプローチは、適切な後訓練手法を用いれば、比較的少ない実世界データからロボットが複雑なスキルを学習できることを示している。
