EG
Visualisation de réseau neuronal IA montrant des concepts de raisonnement spatial et de génération de code avec des nœuds lumineux bleus et violets
ResearchJune 20, 2026Embodied Global Team

NVIDIA Research Dévoile SpatialClaw : Raisonnement Spatial Sans Formation par le 'Code comme Action'

NVIDIA Research dévoile SpatialClaw, une approche sans formation qui permet aux modèles d'IA de générer du code Python pour combiner des outils de perception en raisonnement spatial, atteignant 59,9% de précision moyenne sur 20 benchmarks.

#NVIDIA#SpatialClaw#spatial reasoning#code as action#VLM#Research
Reading in French

NVIDIA Research a dévoilé SpatialClaw, une approche révolutionnaire qui permet aux modèles d'IA d'effectuer des tâches de raisonnement spatial sans aucun entraînement supplémentaire. Au lieu d'utiliser des appels d'outils prédéfinis, SpatialClaw permet aux modèles de générer directement du code Python qui appelle des outils de perception comme Depth Anything 3 et SAM 3.

L'innovation centrale est une conception « code comme interface d'action ». Les méthodes traditionnelles obligent les modèles à utiliser des outils prédéfinis avec des sorties fixes. SpatialClaw permet aux modèles d'écrire du code Python à la volée, utilisant des boucles, des conditionnels et toute combinaison d'outils de perception.

Avancées clés :

  • Zéro entraînement requis: Mêmes invites et outils fonctionnent sur tous les modèles de base
  • 20 benchmarks de raisonnement spatial: Précision moyenne de 59,9%, surpassant SpaceTools de 11,2 points
  • Code comme raisonnement interprétable: Le code généré documente lui-même le processus
  • Entièrement open source: Code disponible sur GitHub (NVlabs/SpatialClaw)

SpatialClaw prouve qu'en reconcevant l'interface d'action — sans augmenter les paramètres ni les coûts — les capacités de raisonnement spatial peuvent être considérablement améliorées.

Source: DeepTech, NVIDIA Research Blog, Toutiao
Language: French- Showing content in French