Modelos Visión-Lenguaje-Acción (VLA) Explicados: Guía para Principiantes 2026
Los modelos VLA (Visión-Lenguaje-Acción) representan la tercera generación de modelos fundacionales de IA. Si los LLMs resuelven "cómo conversar" y los VLMs resuelven "cómo entender imágenes", los VLA responden a la pregunta más ambiciosa: cómo ver, entender y actuar físicamente en el mundo real.
Un modelo VLA es una red neuronal unificada que toma entrada visual (imágenes de cámara), instrucciones en lenguaje natural, y a veces estados propioceptivos del robot, y directamente genera comandos motores.
Modelos Principales
RT-2 (Google DeepMind, 2023): El modelo pionero que demostró la viabilidad de VLA. Con 55B parámetros, trata las acciones robóticas como tokens de texto y demostró capacidades emergentes de razonamiento.
OpenVLA (Stanford, 2024): Combina conocimiento de internet con arquitectura open-source. Con solo 7B parámetros, supera a RT-2-X en un 16.5% y se puede ajustar con LoRA en una GPU de consumo.
π0 y π0.5 (Physical Intelligence, 2024-2025): Revolucionario para manipulación diestra usando flow matching a 50 Hz. π0.5 demostró limpieza de cocinas en hogares nunca vistos.
MINT-4B (China, 2026): Modelo de 4B parámetros clasificado entre los 3 mejores globalmente. Usa tokenización multiescala de frecuencia (SDAT) para separar intención de tarea de detalles de ejecución.
Helix (Figure AI, 2025): Arquitectura dual Sistema 1 + Sistema 2 para control humanoide completo (35 grados de libertad). Primera VLA en ejecutarse completamente en GPU de a bordo.
UniVLA (HKU/OpenDriveLab, 2025): Representa visión, lenguaje y acción como tokens discretos unificados. 95.5% de éxito en LIBERO.
Desafíos y Futuro
Los principales desafíos incluyen la generalización confiable, eficiencia de datos (se necesitan millones de demostraciones), la brecha simulación-realidad y las restricciones de tiempo real. El campo avanza rápidamente: en solo tres años hemos pasado de pruebas de concepto a despliegues comerciales en logística y robótica doméstica.

