Un nuevo artículo de investigación presenta MemoryWAM, un eficiente modelo mundial-acción con memoria persistente diseñado específicamente para tareas de manipulación robótica de largo plazo. Publicado en arXiv en junio de 2026, el trabajo aborda un equilibrio fundamental en los modelos mundial-acción (WAM): los métodos eficientes típicamente se condicionan en observaciones recientes limitadas y luchan en entornos no markovianos, mientras que los métodos que retienen el historial a largo plazo sufren costos prohibitivos de tiempo y espacio.
MemoryWAM emplea una estructura de memoria híbrida que integra tres tipos de información: fotogramas recientes para contexto detallado a corto plazo, anclajes de límites de eventos que capturan momentos de transición clave, y 'tokens de resumen' compactos que resumen información histórica de largo alcance. Un mecanismo de atención personalizado recupera simultáneamente contexto detallado a corto plazo y contexto altamente comprimido a largo plazo, reduciendo significativamente la latencia de inferencia y el uso de memoria GPU.
El modelo fue evaluado en una serie de tareas de manipulación de largo plazo y dependientes de memoria en entornos de simulación y reales. Los resultados muestran que MemoryWAM supera significativamente a los modelos VLA y varios baselines WAM, manteniendo una excelente eficiencia computacional.
Esta investigación representa un paso significativo hacia la capaciación de robots para operar efectivamente en entornos complejos del mundo real que requieren atención sostenida y memoria a través de secuencias de tareas extendidas. El enfoque de memoria híbrida ofrece una solución práctica al problema de escalamiento de longitud de contexto en sistemas de IA incorporada.

