Une équipe de recherche du Laboratoire d'Intelligence Artificielle de Shanghai, de l'Université Polytechnique du Nord-Ouest (NWPU) et de l'Université Jiao Tong de Shanghai (SJTU) a présenté Holi-Spatial, un cadre entièrement automatisé pour construire des données d'entraînement d'intelligence spatiale 3D à partir de flux vidéo bruts. L'article a été accepté comme présentation Orale à ICML 2026.
Pipeline Automatisé en Trois Étapes Holi-Spatial a produit Holi-Spatial-4M, contenant plus de 4 millions d'annotations spatiales. Les résultats montrent que sur Qwen3-VL-8B, l'AP50 d'ancrage 3D passe de 13.50 à 27.98, démontrant que la vidéo brute peut être convertie automatiquement en données d'intelligence spatiale structurées.
