Un equipo de investigadores de motoniq e instituciones líderes incluyendo la Universidad de Stanford, ETH Zurich y TU Darmstadt ha publicado un artículo de posición (arXiv:2606.06556) desafiando la suposición prevaleciente de que escalar modelos de Visión-Lenguaje-Acción (VLA) con modelos del mundo conducirá a robots de propósito general. El artículo argumenta que el paradigma actual está fundamentalmente incompleto.
Los investigadores identifican el cuello de botella central como la ausencia de mecanismos para transformar datos de comportamiento físico no estructurados en señales de supervisión robótica. Proponen cuatro componentes faltantes esenciales: (1) Motores de datos físicos con auto-anotación encarnada, (2) Reorientación que preserva tareas entre encarnaciones, (3) Interfaces de modelo del mundo físicamente fundamentadas, (4) Interfaces de recompensa que infieren progreso de tareas desde video y lenguaje.
El documento proporciona evidencia rigurosa de que simplemente agrandar los modelos VLA no puede lograr la robótica generalista. Los autores piden una reconsideración fundamental de cómo los robots aprenden de las interacciones físicas.
