Un equipo de investigación del Laboratorio de Inteligencia Artificial de Shanghái, la Universidad Politécnica del Noroeste (NWPU) y la Universidad Jiao Tong de Shanghái (SJTU) ha presentado Holi-Spatial, un marco totalmente automatizado para construir datos de entrenamiento de inteligencia espacial 3D a partir de transmisiones de video en bruto. El artículo ha sido aceptado como presentación Oral en ICML 2026.
El Cuello de Botella de Datos en la Inteligencia Espacial Mientras los grandes modelos de lenguaje han avanzado rápidamente, todavía tienen dificultades con la comprensión espacial 3D genuina. Estas capacidades requieren datos 3D a gran escala, detallados y geométricamente restringidos.
Tubería Automatizada de Tres Etapas La tubería produjo Holi-Spatial-4M, que contiene más de 4 millones de anotaciones espaciales. Los resultados experimentales muestran que, cuando se ajusta en Qwen3-VL-8B, el AP50 de grounding 3D mejora de 13.50 a 27.98.
Holi-Spatial demuestra que el video en bruto puede convertirse automáticamente en datos de inteligencia espacial estructurados y entrenables, con profundas implicaciones para la IA incorporada, AR/VR y la navegación robótica.
