EG
現代的な実験室で青色の照明に照らされたロボットアームのクローズアップ。具身知能のAI研究を表現
ResearchJune 22, 2026EG Editorial

Thinker:具身知能向け視覚言語基盤モデルがロボットベンチマークでSOTAを達成

研究者らは、具身知能向けの70億パラメータ視覚言語基盤モデル「Thinker」を提案。180万規模のロボット計画データセットを用いてロボットタスク計画ベンチマークでSOTAを達成し、RobovqaとEgoplan-bench2でGPT-4Vを凌駕した。専門的なロボットトレーニングの価値を実証し、完全な技術レポートとアーキテクチャをオープンソース化する予定。

#Thinker#VLM#vision-language model#embodied intelligence#robot planning#arXiv#robotics research#SOTA
Reading in JA

研究者らは、具身知能専用に設計された70億パラメータの視覚言語基盤モデル「Thinker」を発表し、主要なロボットタスク計画ベンチマークでSOTAを達成した。このモデルは、高度なVLMでさえロボット分野で苦戦する根本的な課題(第三人称と第一人称視点の混同、推論中のビデオ終盤の情報見落としなど)に取り組む。

Thinkerは2段階のトレーニング戦略を採用。第1段階では汎用データセット、空間理解データ、大規模計画データセットを組み合わせて基礎的な知覚・推論能力を確立。第2段階では特定の下流タスクに合わせた教師ありファインチューニングを適用する。重要な革新は動画理解アプローチにあり、キーフレームと全動画を共同で入力として取り込むことで時間的理解を大幅に強化する。

研究チームは180万サンプルのロボット計画データセット「Robovideo-1.8M」と産業用タスク計画データセット「Industroplan-200K」を構築。さらに57万以上の視覚グラウンディングサンプルと10万の自己視点推論サンプルも追加で用意した。

RobovqaベンチマークでThinker-7Bは平均BLEUスコア63.5を達成し、GPT-4Vと既存のすべてのロボット視覚言語モデルを凌駕。Egoplan-bench2ではトップ1精度58.2%を記録し、Qwen2.5-VL-7BやCosmos-Reason1-7Bを含むすべてのベースラインを包括的に上回った。特に長期的タスク計画と空間推論で顕著な強みを示した。

主な貢献は以下の通り:最大規模のロボット計画専用データセット(Robovideo-1.8M)の構築、ロボット操作向け7Bパラメータ視覚言語モデルの開発、専門トレーニングの価値を証明する複数のロボットベンチマークでのSOTA達成、完全な技術レポート・アーキテクチャ・重みのオープンソース化の約束。

Language: JA- Showing content in JA

Share this article