Un article de position publié sur arXiv remet en question le paradigme dominant dans la recherche sur l'intelligence incarnée. L'équipe de Motoniq et ses collaborateurs soutiennent que simplement augmenter les modèles Vision-Langage-Action (VLA) et les modèles du monde ne peut pas atteindre l'intelligence robotique générale.
L'article identifie quatre composants critiques manquants dans les approches actuelles : Moteur de Données Physiques avec Auto-étiquetage Incarné, Réorientation de Préservation de Tâches Cross-Encarnation, Modèles du Monde Fondés sur la Physique, et Boucles de Déploiement Auto-améliorantes.
Selon les chercheurs, les robots actuels dépendent encore fortement de données d'entraînement pré-organisées, la supervision vidéo ne peut pas se traduire directement en actions exécutables par les robots, et les modèles du monde existants échouent souvent à préserver les variables physiques critiques comme le contact, la force et la réponse des matériaux.
Les auteurs suggèrent que la voie à suivre nécessite de construire un moteur de données physiques qui unifie les sources de données hétérogènes en une structure physique sous-jacente commune.
Article : https://arxiv.org/abs/2606.06556
