NVIDIA Research a dévoilé SpatialClaw, une approche révolutionnaire qui permet aux modèles d'IA d'effectuer des tâches de raisonnement spatial sans aucun entraînement supplémentaire. Au lieu d'utiliser des appels d'outils prédéfinis, SpatialClaw permet aux modèles de générer directement du code Python qui appelle des outils de perception comme Depth Anything 3 et SAM 3.
L'innovation centrale est une conception « code comme interface d'action ». Les méthodes traditionnelles obligent les modèles à utiliser des outils prédéfinis avec des sorties fixes. SpatialClaw permet aux modèles d'écrire du code Python à la volée, utilisant des boucles, des conditionnels et toute combinaison d'outils de perception.
Avancées clés :
- Zéro entraînement requis: Mêmes invites et outils fonctionnent sur tous les modèles de base
- 20 benchmarks de raisonnement spatial: Précision moyenne de 59,9%, surpassant SpaceTools de 11,2 points
- Code comme raisonnement interprétable: Le code généré documente lui-même le processus
- Entièrement open source: Code disponible sur GitHub (NVlabs/SpatialClaw)
SpatialClaw prouve qu'en reconcevant l'interface d'action — sans augmenter les paramètres ni les coûts — les capacités de raisonnement spatial peuvent être considérablement améliorées.
