NVIDIA Research ha presentado SpatialClaw, un enfoque innovador que permite a los modelos de IA realizar tareas de razonamiento espacial sin necesidad de entrenamiento adicional. En lugar de usar llamadas a herramientas predefinidas, SpatialClaw permite a los modelos generar directamente código Python que invoca herramientas de percepción como Depth Anything 3 y SAM 3, combinando libremente sus resultados.
La innovación central es un diseño de "interfaz de código como acción". Los métodos tradicionales requieren que los modelos llamen a herramientas predefinidas con salidas fijas, rígidas e incapaces de combinarse libremente. SpatialClaw permite a los modelos escribir código Python sobre la marcha, usando bucles, condicionales y cualquier combinación de herramientas de percepción para resolver problemas espaciales.
Aspectos clave:
- Sin entrenamiento: Los mismos prompts y herramientas funcionan en todos los modelos base (Qwen3.5/3.6, Gemma4 probados de 26B a 397B parámetros)
- 20 benchmarks de razonamiento espacial: Precisión promedio del 59.9%, superando al método agente más fuerte SpaceTools en 11.2 puntos porcentuales
- Código como razonamiento interpretable: El código generado documenta el proceso de razonamiento
- Totalmente open source: Código disponible en GitHub (NVlabs/SpatialClaw)
Este trabajo tiene implicaciones significativas para la IA encarnada. SpatialClaw demuestra que rediseñando la interfaz de acción —sin aumentar parámetros del modelo ni costos de entrenamiento— se pueden mejorar drásticamente las capacidades de razonamiento espacial.
