上海人工知能研究所、西北工業大学、上海交通大学の研究チームが、生の動画ストリームから3D空間インテリジェンス学習データを構築する完全自動化フレームワーク「Holi-Spatial」を発表した。本論文はICML 2026のOral採択論文である。
3段階自動パイプライン このパイプラインはScanNet、ScanNet++、DL3DV-10Kをソースとする400万以上の空間アノテーションを含むHoli-Spatial-4Mデータセットを生成した。Qwen3-VL-8Bでファインチューニングした場合、3DグラウンディングAP50が13.50から27.98へと大幅に向上した。
Holi-Spatialは、生の動画を構造化された学習可能な空間インテリジェンスデータに自動変換できることを実証し、今後の空間AIの進歩はより大規模なモデルパラメータだけでなく、より優れたデータ構築システムからももたらされることを示唆している。
