Une équipe de chercheurs de l'Institut d'Automatisation de l'Académie Chinoise des Sciences (CASIA), de l'Université de Nanjing et de l'Université Beihang a présenté World Pilot, un nouveau framework Vision-Langage-Action (VLA) qui intègre des priors d'un Modèle Action-Monde (WAM) pour améliorer significativement les performances de manipulation robotique.
Les modèles VLA traditionnels héritent d'un ancrage sémantique du pré-entraînement à grande échelle sur des paires image-texte statiques, mais les tâches de manipulation impliquent des dynamiques continues et riches en contact que ce pré-entraînement ne peut capturer. World Pilot résout cette limitation fondamentale en acheminant les priors du WAM dans la chaîne de décision du VLA par deux voies complémentaires.
Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, donnant au modèle une compréhension anticipée de l'évolution de l'environnement. Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Ensemble, ces deux priors équipent le VLA d'une vue prédictive de la scène et d'indications de mouvement au niveau de la trajectoire.
Une découverte clé est que le prior d'évolution de scène reste efficace même lorsqu'il est fourni par un modèle du monde pré-entraîné sur vidéo n'ayant pas subi de post-entraînement d'actions, élargissant considérablement l'applicabilité de l'approche.
World Pilot atteint un taux de succès total de 84,7% sur le benchmark LIBERO-Plus zero-shot OOD, surpassant les méthodes antérieures dont Cosmos Policy (79,7%) et Being-H0 (82,1%). Dans les évaluations robotiques réelles sur quatre tâches, il atteint les taux de succès les plus élevés.



