Un nouvel article de recherche présente MemoryWAM, un modèle monde-action efficace avec mémoire persistante spécialement conçu pour les tâches de manipulation robotique à long horizon. Publié sur arXiv en juin 2026, ce travail aborde un compromis fondamental dans les modèles monde-action (WAM) : les méthodes efficaces se conditionnent généralement sur des observations récentes limitées et peinent dans les environnements non markoviens, tandis que les méthodes qui conservent l'historique à long terme souffrent de coûts de temps et d'espace prohibitifs.
MemoryWAM utilise une structure mémoire hybride intégrant trois types d'informations : les trames récentes pour un contexte détaillé à court terme, les ancres de limites d'événements capturant les moments de transition clés, et des 'jetons de résumé' compacts qui résument les informations historiques à long terme. Un mécanisme d'attention personnalisé récupère simultanément un contexte détaillé à court terme et un contexte hautement compressé à long terme, réduisant considérablement la latence d'inférence et l'utilisation de la mémoire GPU.
Le modèle a été évalué sur une série de tâches de manipulation à long horizon et dépendantes de la mémoire dans des environnements de simulation et réels. Les résultats montrent que MemoryWAM surpasse significativement les modèles VLA et diverses références WAM, tout en maintenant une excellente efficacité computationnelle.
Cette recherche représente un pas significatif vers la capacité des robots à opérer efficacement dans des environnements complexes du monde réel nécessitant une attention soutenue et une mémoire à travers des séquences de tâches étendues. L'approche mémoire hybride offre une solution pratique au problème de mise à l'échelle de la longueur de contexte dans les systèmes d'IA incarnée.

