EG
Visualización abstracta de red neuronal de IA procesando datos temporales para manipulación robótica
ResearchJune 9, 2026Embodied Global Team

MemoryVLA++ Permite a los Modelos VLA con Memoria e Imaginación Similar a la Humana para Manipulación Robótica

Los investigadores presentan MemoryVLA++, un marco de modelado temporal que equipa a los modelos Visión-Lenguaje-Acción con capacidades de memoria e imaginación, permitiendo a los robots mantener el contexto en tareas de manipulación a largo plazo y anticipar estados futuros.

Reading in Spanish

MemoryVLA++: Uniendo Memoria e Imaginación en la Manipulación Robótica

Investigadores de múltiples instituciones han presentado MemoryVLA++, un marco completo de modelado temporal que equipa a los modelos Visión-Lenguaje-Acción (VLA) con capacidades de memoria e imaginación para la manipulación robótica.

El Desafío del Modelado Temporal

El modelado temporal es esencial para la manipulación robótica, ya que el control efectivo requiere tanto memoria de interacciones pasadas como imaginación de estados futuros. Sin embargo, la mayoría de los modelos VLA se basan principalmente en la observación actual y, por lo tanto, tienen dificultades con tareas dependientes del tiempo a largo plazo.

Arquitectura Inspirada en la Cognición

Inspirada en la ciencia cognitiva, MemoryVLA++ se inspira en tres mecanismos cognitivos humanos:

  1. Memoria de Trabajo: Alberga contexto efímero de observaciones actuales
  2. Memoria Episódica: Conserva experiencias de interacciones pasadas
  3. Modelos Internos: Imagina la evolución posible de estados futuros

Implementación Técnica

El marco consiste en varios componentes clave:

  • Un Modelo de Visión-Lenguaje preentrenado codifica observaciones actuales en tokens perceptuales y cognitivos
  • Un Banco de Memoria Perceptual-Cognitiva almacena detalles de bajo nivel y semántica de alto nivel de interacciones pasadas
  • Un modelo mundial imagina estados futuros en un espacio latente de eliminación de ruido
  • Un experto de acción de difusión predice secuencias de acción temporalmente consistentes

Resultados Experimentales

MemoryVLA++ fue evaluado en 5 benchmarks de simulación y 3 categorías de tareas de robots reales, mostrando ganancias significativas de rendimiento en manipulación general (+9%), tareas dependientes de memoria (+26%) y tareas dependientes de imaginación (+28%).