Vision-Language-Action(VLA)モデル解説:2026年版初心者ガイド
VLA(Vision-Language-Action)モデルは、ファウンデーションモデルの第三世代です。LLMが「対話する方法」、VLMが「画像を理解する方法」を解決するのに対し、VLAは「見て、理解して、物理的に行動する方法」という最も野心的な課題に取り組みます。
アーキテクチャ
VLAモデルは3層構造で動作します:
- 視覚エンコード層:SigLIPやDINOv2などのVision Transformerが画像から意味的・空間的特徴を抽出
- 言語理解層:事前学習済みVLMが自然言語の指示を解釈
- 行動デコード層:離散トークン化、拡散/フローマッチング、または回帰によりアクションを生成
主要モデル
RT-2(Google DeepMind、2023):VLAの実現可能性を証明した先駆的モデル。55Bパラメータ。ロボット行動をテキストトークンとして処理。
OpenVLA(Stanford、2024):オープンソース、7Bパラメータ。SigLIP+DINOv2のデュアル視覚エンコーダ。RT-2-Xを7分の1のパラメータで上回る。
π0・π0.5(Physical Intelligence、2024-2025):フローマッチングによる50Hzの巧みな操作。π0.5は未体験の家庭環境でのタスク遂行に成功。
MINT-4B(広東智動未来、2026):4Bパラメータ、世界トップ3にランクイン。SDAT多周波数トークン化技術を搭載。
Helix(Figure AI、2025):System1+System2の二重アーキテクチャ。人型ロボットの完全上半身制御(35自由度)。搭載GPUで動作。
UniVLA(香港大学、2025):視覚・言語・行動を統一トークンとして表現。LIBEROで95.5%の成功率。
課題と展望
信頼性のある汎化、データ効率(数百万のデモデータが必要)、シミュレーションと現実のギャップ、リアルタイム制約が主な課題です。しかし、わずか3年で概念実証から商業展開まで進歩しており、VLAモデルによる汎用ロボットの実現が現実味を帯びています。

