研究者らは、具身知能専用に設計された70億パラメータの視覚言語基盤モデル「Thinker」を発表し、主要なロボットタスク計画ベンチマークでSOTAを達成した。このモデルは、高度なVLMでさえロボット分野で苦戦する根本的な課題(第三人称と第一人称視点の混同、推論中のビデオ終盤の情報見落としなど)に取り組む。
Thinkerは2段階のトレーニング戦略を採用。第1段階では汎用データセット、空間理解データ、大規模計画データセットを組み合わせて基礎的な知覚・推論能力を確立。第2段階では特定の下流タスクに合わせた教師ありファインチューニングを適用する。重要な革新は動画理解アプローチにあり、キーフレームと全動画を共同で入力として取り込むことで時間的理解を大幅に強化する。
研究チームは180万サンプルのロボット計画データセット「Robovideo-1.8M」と産業用タスク計画データセット「Industroplan-200K」を構築。さらに57万以上の視覚グラウンディングサンプルと10万の自己視点推論サンプルも追加で用意した。
RobovqaベンチマークでThinker-7Bは平均BLEUスコア63.5を達成し、GPT-4Vと既存のすべてのロボット視覚言語モデルを凌駕。Egoplan-bench2ではトップ1精度58.2%を記録し、Qwen2.5-VL-7BやCosmos-Reason1-7Bを含むすべてのベースラインを包括的に上回った。特に長期的タスク計画と空間推論で顕著な強みを示した。
主な貢献は以下の通り:最大規模のロボット計画専用データセット(Robovideo-1.8M)の構築、ロボット操作向け7Bパラメータ視覚言語モデルの開発、専門トレーニングの価値を証明する複数のロボットベンチマークでのSOTA達成、完全な技術レポート・アーキテクチャ・重みのオープンソース化の約束。
