MemoryVLA++: Uniendo Memoria e Imaginación en la Manipulación Robótica
Investigadores de múltiples instituciones han presentado MemoryVLA++, un marco completo de modelado temporal que equipa a los modelos Visión-Lenguaje-Acción (VLA) con capacidades de memoria e imaginación para la manipulación robótica.
El Desafío del Modelado Temporal
El modelado temporal es esencial para la manipulación robótica, ya que el control efectivo requiere tanto memoria de interacciones pasadas como imaginación de estados futuros. Sin embargo, la mayoría de los modelos VLA se basan principalmente en la observación actual y, por lo tanto, tienen dificultades con tareas dependientes del tiempo a largo plazo.
Arquitectura Inspirada en la Cognición
Inspirada en la ciencia cognitiva, MemoryVLA++ se inspira en tres mecanismos cognitivos humanos:
- Memoria de Trabajo: Alberga contexto efímero de observaciones actuales
- Memoria Episódica: Conserva experiencias de interacciones pasadas
- Modelos Internos: Imagina la evolución posible de estados futuros
Implementación Técnica
El marco consiste en varios componentes clave:
- Un Modelo de Visión-Lenguaje preentrenado codifica observaciones actuales en tokens perceptuales y cognitivos
- Un Banco de Memoria Perceptual-Cognitiva almacena detalles de bajo nivel y semántica de alto nivel de interacciones pasadas
- Un modelo mundial imagina estados futuros en un espacio latente de eliminación de ruido
- Un experto de acción de difusión predice secuencias de acción temporalmente consistentes
Resultados Experimentales
MemoryVLA++ fue evaluado en 5 benchmarks de simulación y 3 categorías de tareas de robots reales, mostrando ganancias significativas de rendimiento en manipulación general (+9%), tareas dependientes de memoria (+26%) y tareas dependientes de imaginación (+28%).
