中国の研究チームが、単一アーキテクチャ内に包括的な具現化推論能力を統合した統一具現化基盤モデル(EFM)「Embodied-R1.5」をリリースし、主要な具現化AIベンチマークの大半で最先端の成果を達成した。
「Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models」と題された論文は、6月9日にarXivに投稿された(arXiv:2606.11324)。
主要な技術的革新
Embodied-R1.5は3つの自動データ構築パイプラインを導入し、150億トークン以上のトレーニングデータセットを生成。
特筆すべき機能は、Planner-Grounder-Corrector(PGC)閉ループフレームワークであり、単一モデルが人間の介入なしに長期的タスクを自律的に実行し自己修正することを可能にする。
ベンチマーク性能
わずか80億パラメータで、Embodied-R1.5は24の具現化VLMベンチマーク中16でSOTAを達成。Google DeepMindのGemini-Robotics-ER-1.5やOpenAIのGPT-5.4を凌駕した。
完全オープンソース公開
チームはモデル重み、データセット、トレーニングコード、および評価フレームワークEmbodiedEvalKitをHugging FaceとGitHubでオープンソース化した。
