EG
Visualización de red neuronal AI mostrando conceptos de razonamiento espacial y generación de código con nodos brillantes azules y púrpuras
ResearchJune 20, 2026Embodied Global Team

NVIDIA Research Presenta SpatialClaw: Razonamiento Espacial Sin Entrenamiento a Través de 'Código como Acción'

NVIDIA Research presenta SpatialClaw, un enfoque sin entrenamiento que permite a los modelos de IA generar código Python para combinar herramientas de percepción en razonamiento espacial, logrando 59.9% de precisión promedio en 20 benchmarks.

#NVIDIA#SpatialClaw#spatial reasoning#code as action#VLM#Research
Reading in Spanish

NVIDIA Research ha presentado SpatialClaw, un enfoque innovador que permite a los modelos de IA realizar tareas de razonamiento espacial sin necesidad de entrenamiento adicional. En lugar de usar llamadas a herramientas predefinidas, SpatialClaw permite a los modelos generar directamente código Python que invoca herramientas de percepción como Depth Anything 3 y SAM 3, combinando libremente sus resultados.

La innovación central es un diseño de "interfaz de código como acción". Los métodos tradicionales requieren que los modelos llamen a herramientas predefinidas con salidas fijas, rígidas e incapaces de combinarse libremente. SpatialClaw permite a los modelos escribir código Python sobre la marcha, usando bucles, condicionales y cualquier combinación de herramientas de percepción para resolver problemas espaciales.

Aspectos clave:

  • Sin entrenamiento: Los mismos prompts y herramientas funcionan en todos los modelos base (Qwen3.5/3.6, Gemma4 probados de 26B a 397B parámetros)
  • 20 benchmarks de razonamiento espacial: Precisión promedio del 59.9%, superando al método agente más fuerte SpaceTools en 11.2 puntos porcentuales
  • Código como razonamiento interpretable: El código generado documenta el proceso de razonamiento
  • Totalmente open source: Código disponible en GitHub (NVlabs/SpatialClaw)

Este trabajo tiene implicaciones significativas para la IA encarnada. SpatialClaw demuestra que rediseñando la interfaz de acción —sin aumentar parámetros del modelo ni costos de entrenamiento— se pueden mejorar drásticamente las capacidades de razonamiento espacial.

Source: DeepTech, NVIDIA Research Blog, Toutiao
Language: Spanish- Showing content in Spanish