MemoryVLA++ : Unissant Mémoire et Imagination dans la Manipulation Robotique
Des chercheurs de multiples institutions ont présenté MemoryVLA++, un cadre complet de modélisation temporelle qui équipe les modèles Vision-Langage-Action (VLA) de capacités de mémoire et d'imagination pour la manipulation robotique.
Le Défi de la Modélisation Temporelle
La modélisation temporelle est essentielle pour la manipulation robotique, car un contrôle efficace nécessite à la fois la mémoire des interactions passées et l'imagination des états futurs. Cependant, la plupart des modèles VLA s'appuient principalement sur l'observation actuelle et ont donc des difficultés avec les tâches dépendantes du temps à long terme.
Architecture Inspirée de la Cognition
Inspirée par la science cognitive, MemoryVLA++ s'inspire de trois mécanismes cognitifs humains :
- Mémoire de Travail : Met en mémoire tampon le contexte éphémère des observations actuelles
- Mémoire Épisodique : Conserve les expériences des interactions passées
- Modèles Internes : Imagine l'évolution possible des états futurs
Implémentation Technique
Le cadre se compose de plusieurs composants clés :
- Un modèle de vision-langage pré-entraîné code les observations actuelles en jetons perceptuels et cognitifs
- Une banque de mémoire perceptuelle-cognitive stocke les détails de bas niveau et la sémantique de haut niveau des interactions passées
- Un modèle mondial imagine les états futurs dans un espace latent de débruitage
- Un expert en action par diffusion prédit des séquences d'actions temporellement cohérentes
Résultats Expérimentaux
MemoryVLA++ a été évalué sur 5 références de simulation et 3 catégories de tâches de robots réels, montrant des gains de performance significatifs en manipulation générale (+9%), en tâches dépendantes de la mémoire (+26%) et en tâches dépendantes de l'imagination (+28%).
