Investigadores han presentado Thinker, un modelo fundamental de visión-lenguaje de 7 mil millones de parámetros diseñado específicamente para inteligencia incorporada, logrando resultados de última generación en evaluaciones clave de planificación de tareas robóticas. El modelo aborda desafíos fundamentales con los que incluso los VLM avanzados luchan en robótica, incluyendo la confusión entre perspectivas en tercera y primera persona y la tendencia a pasar por alto información en los finales de videos durante el razonamiento.
Thinker emplea una estrategia de entrenamiento en dos etapas. La Etapa 1 establece capacidades básicas de percepción y razonamiento utilizando una combinación de conjuntos de datos generales, datos de comprensión espacial y conjuntos de datos de planificación a gran escala. La Etapa 2 aplica ajuste fino supervisado para la alineación de tareas específicas. Una innovación crítica radica en su enfoque de comprensión de video: al incorporar conjuntamente fotogramas clave y videos completos como entradas, el modelo mejora sustancialmente la comprensión temporal.
El equipo de investigación construyó un conjunto de datos integral de planificación robótica de 1.8 millones de muestras llamado Robovideo-1.8M, junto con un conjunto de datos de planificación de tareas industriales Industroplan-200K. Los datos de entrenamiento adicionales incluyen más de 570,000 muestras de anclaje visual para comprensión espacial detallada y 100,000 muestras de razonamiento en primera persona.
En la evaluación Robovqa, Thinker-7B logró una puntuación BLEU promedio de 63.5, superando a GPT-4V y todos los modelos robóticos de visión-lenguaje existentes. En la evaluación Egoplan-bench2, alcanzó un 58.2% de precisión top-1, superando exhaustivamente a todas las líneas base, incluyendo Qwen2.5-VL-7B y Cosmos-Reason1-7B.
Las contribuciones clave del documento incluyen: la construcción del conjunto de datos de planificación robótica dedicado más grande (Robovideo-1.8M), el desarrollo de un modelo de visión-lenguaje especializado de 7B parámetros para manipulación robótica, el logro de SOTA en múltiples evaluaciones robóticas y el compromiso de abrir el código del informe técnico completo, la arquitectura y los pesos.
