Une équipe de chercheurs de motoniq et d'institutions de premier plan dont l'Université de Stanford, l'ETH Zurich et la TU Darmstadt a publié un article de position (arXiv:2606.06556) remettant en question l'hypothèse prédominante selon laquelle la mise à l'échelle des modèles Vision-Langage-Action (VLA) avec des modèles du monde mènera à des robots polyvalents. L'article soutient que le paradigme actuel est fondamentalement incomplet.
Les chercheurs identifient le goulot d'étranglement central comme l'absence de mécanismes pour transformer les données de comportement physique non structurées en signaux de supervision robotique. Ils proposent quatre composantes manquantes essentielles: (1) Moteurs de données physiques avec auto-annotation incarnée, (2) reciblage préservant les tâches inter-incarnations, (3) Interfaces de modèle du monde physiquement ancrées, (4) Interfaces de récompense inférant la progression des tâches à partir de la vidéo et du langage.
L'article fournit des preuves rigoureuses selon lesquelles simplement agrandir les modèles VLA ne peut atteindre la robotique généraliste. Les auteurs appellent à une refonte fondamentale de la façon dont les robots apprennent des interactions physiques.
