EG
ロボット工学におけるシミュレーションと実世界展開の架け橋を象徴する、現代の実験室で作業する人型ロボット
ResearchJune 16, 2026Embodied Global Team

35%の崖:人型ロボットにおけるSim-to-Real性能崩壊の定量化 そしてなぜついに縮小しているのか

2026年の3つの独立したベンチマークにより、Sim-to-Realギャップは定量化可能な35%の複合パフォーマンスの崖であることが明らかになった(単純タスク1.1倍、把持適応性50倍)。Centific B4、NVIDIA Isaac Lab、AGIBOT Genie Sim 3.0(R²=0.924)が初の具体的数値を提供。

#sim-to-real#humanoid-robot#embodied-ai#robotics-benchmark#deep-learning#research
Reading in JA

35%の崖:人型ロボットにおけるSim-to-Real性能崩壊の定量化 — そしてなぜついに縮小しているのか

2026年のベンチマークが明らかにする現実ギャップの正確な次元と、それを埋める3つの技術的経路


はじめに:「現実世界で動かない」を超えて

長年、ロボティクスコミュニティはSim-to-Realギャップを「シミュレーションは現実を捉えていない」「ポリシーが実ハードウェアで壊れる」「ドメインシフトがある」といった曖昧な表現で説明してきました。これらの主張は正しいですが、役に立ちません。症状を説明していても、構造を説明していないのです。

2026年、私たちはようやく数字を手に入れました。

2026年前半に発表された3つの独立したベンチマーク — CentificのB4 Dexterous Manipulation Benchmark(29のタスクデータセットで1,400以上の実エピソード)、NVIDIA Isaac Lab検証スイート(COMPASS、Grasp-MPC、SPARR)、AGIBOTのGenie Sim 3.0 sim-to-real相関研究 — は、シミュレーションが実世界のパフォーマンスをどこで、どのように、どれだけ過大評価しているかに具体的な数字を付けました。

結果は厳粛ですが正確です:Sim-to-Realギャップは平均35%のパフォーマンスの崖 — 能力層によって劇的に異なる体系的な崩壊であり、単純なタスク完了では許容範囲の1.1倍の劣化から、把持適応性では驚異的な50倍の崩壊まで及びます。

本稿では、この35%の崖を構成層に分解し、各層を埋めている技術戦略を評価し、ギャップをどれだけ速く、どのコストで埋められるかを予測します。


層1:知覚 — 1.5倍の欺瞞

Sim-to-Realギャップの中で最も生存可能な層は知覚です。シミュレーション環境は完全に較正されたセンサー、ゼロ遅延、一貫した照明を持っています。現実世界にはほこり、ノイズ、ビネット、センサードリフトがあります。

Centificのベンチマーク(2026年5月発表)はこれを直接測定しました:

指標シミュレーション実テレオペレーションギャップ
タスク成功率~95%~83%~1.1倍
操作精度~99%~68%~1.5倍

操作精度 — オブジェクトが目標にどれだけ正確に配置されるか — はシミュレーションから実ハードウェアへ1.5倍低下します。これは重要ですが管理可能です。68%の精度率でも、ある程度の誤差が許容される管理された環境での展開は可能です。

より深い問題は把持品質です:シミュレーションは約68%の把持品質を報告しますが、実際のテレオペレーションは約47%しか達成しません — 1.5倍のギャップです。これは、経験豊富な人間のオペレーターが実行しても、実世界の把持のほぼ半数が不安定または最適未満であることを意味します。

しかし本当に衝撃的な数字は把持適応性 — タスク途中で把持を調整する能力です。シミュレーションはほぼ完璧な適応性(約100%)を報告しますが、実際のテレオペレーションは約2%しか達成しません — 驚異的な50倍のギャップです。

知覚層は全体の35%のパフォーマンスの崖に約10ポイント寄与しています。 これは主にドメインランダム化、センサーノイズモデリング、そして最も効果的にはシミュレーションの忠実度向上によって修正するのが最も容易な層です。


層2:決定 — 分布シフトがパフォーマンスを殺す場所

ギャップの第2層は分布シフトです:トレーニングは狭いシナリオ分布で行われ、デプロイメントはその分布外のシナリオに遭遇します。

Physical Intelligenceのπ0.5モデル(2025年4月発表)が最も明確なデータポイントを提供します。モデルは分布内タスクで83%の成功率、分布外タスクで94%を達成しました。しかしπ0.5はこれを達成するために多様な環境で400時間の実ロボットデータを必要としました。

Figure AIのHelix 02は重要な原理を示しています:Sim-to-Realギャップは一枚岩ではなく、層固有であり、各層には異なる橋渡し戦略が必要です。

知覚層:ドメインランダム化+センサーノイズモデリング → ギャップの約70%を橋渡し 決定層:大規模多様データ+意味推論 → ギャップの約50%を橋渡し 実行層:大規模並列シミュレーション+非対称teacher-student → ギャップの約80%を橋渡し

決定層は全体の35%の崖に約15ポイント寄与しています。 現在のモデルが完全には備えていない多様なトレーニングデータと推論能力の両方を必要とするため、閉じるのが最も困難です。


層3:実行 — 物理には1.5倍のペナルティがある

第3層は、きれいな分析的解決策が失敗する場所です。接触リッチなタスク — 押す、挿入する、変形する — は、接触物理が非線形で不連続であり、正確にモデル化するのに計算コストがかかるため、シミュレーションに根本的に耐性があります。

2026年の主要データポイント:

NVIDIAのSPARR法は成功率を**38%向上させ、サイクルタイムを約30%削減します。トレーニング中に見られなかったNIST組立タスクでは、成功率が約75%**向上します。

NVIDIAのGrasp-MPCは実ロボットで約**75%**の全体成功率を達成し、ベースラインの41%から改善しました。

Physical IntelligenceのRLT法(2026年3月)は精密操作タスクでスループットを最大3倍改善しました。

実行層は全体の35%の崖に約10ポイント寄与しています。 シミュレーションプレトレーニングと実世界ファインチューニングを組み合わせたハイブリッドアプローチのおかげで、最も急速に閉じています。


中国の違い:データ工場 vs 忠実度

Sim-to-Realギャップに対する中国のアプローチは西洋とは根本的に異なります — そしてデータは現在、結果に測定可能な乖離を示しています。

AGIBOTのGenie Sim 3.0R² = 0.924のsim-to-real相関を達成しました。1,500の合成エピソードでトレーニングされたモデルは、テストされたすべてのタスクで500の実世界エピソードでトレーニングされたモデルを上回りました。

一方、上海にあるAGIBOTのギガデータ工場 — 毎日3万から5万のデータポイントを生成する約100台のテレオペレーション人型ロボットを展開 — は逆の賭けを表しています。

しかし、モルガン・スタンレーが2026年1月に中国企業86社を調査したところ、現在の人型ロボット製品に対する**買い手満足度はわずか23%**であることが明らかになりました。

乖離は示唆に富んでいます:Genie Sim 3.0は高忠実度シミュレーションがほぼ完璧なsim-to-real相関を達成できることを証明しています — しかし限られたハードウェアとタスク領域に対してのみです。


ハイブリッド経路:ギャップが実際に縮小している場所

2026年の最も効果的な戦略は、シミュレーションプレトレーニング、実世界ファインチューニング、そして決定的に重要なのはデプロイメント時学習を組み合わせています。

2023年ギャップ(推定)2026年ギャップ(測定)主要な閉鎖技術
知覚~40%~15%ドメインランダム化、Genie Sim 3.0忠実度
決定~50%~25%大規模多様データ、VLAアーキテクチャ
実行~45%~20%ハイブリッドsim+realファインチューニング、オンラインRL
複合~45%~20%

Sim-to-Realギャップ全体は2023年から2026年にかけて約半分に減少しました。現在の速度では、ギャップは**2027年後半までに約10%**に縮小する可能性があります。


結論:ギャップは測定可能であり、縮小している

Sim-to-Realギャップは神秘的な力ではありません — 体系的に定量化し対処できる、測定可能で層固有の劣化の集合です。2026年、私たちはようやく数字を手に入れました:

  • シミュレーションから実ハードウェアへの35%の複合パフォーマンスの崖
  • 特定指標での50倍の最悪ケースギャップ(把持適応性)
  • 最適化シミュレーションプラットフォームでのR² = 0.924の最良ケース相関
  • 現在の最良システムでの約20%の残存ギャップ

最も重要な教訓:sim-to-realで勝っている企業は、最高のシミュレーション、最大のデータセット、または最も印象的なデモを持っている企業ではありません。各デプロイメントが次のイテレーションを促進する閉ループシステム — トレーニング、デプロイ、測定、改善 — を構築した企業です。

そのループこそが、あらゆる単一の技術よりも、35%の崖を管理可能な坂道に変える方法なのです。


データソース:Centific B4 Dexterous Manipulation Benchmark(2026年5月)、Physical Intelligence π0.5/π0.7/RLT技術レポート、Figure AI Helix 02アーキテクチャ文書、AGIBOT Genie Sim 3.0検証研究(R²=0.924)、NVIDIA Isaac Labベンチマーク、Morgan Stanley中国調査(2026年1月)

Language: JA- Showing content in JA