El equipo Seed de ByteDance ha lanzado oficialmente GR-3, un modelo de Visión-Lenguaje-Acción (VLA) de próxima generación diseñado para manipulación robótica de propósito general, marcando un paso significativo hacia un cerebro robótico verdaderamente universal.
A diferencia de los modelos tradicionales de manipulación robótica que dependen de grandes cantidades de datos de trayectoria para el entrenamiento, GR-3 demuestra capacidades revolucionarias para comprender instrucciones de lenguaje que incluyen conceptos abstractos y manipular con precisión objetos flexibles como cables, telas y materiales blandos, tareas que durante mucho tiempo han desafiado a la robótica convencional.
El modelo exhibe fuertes habilidades de generalización con pocos ejemplos, lo que le permite adaptarse rápidamente a nuevas tareas y reconocer objetos novedosos con datos de entrenamiento adicionales mínimos. Esto representa un cambio fundamental de la programación rígida de robots específicos de tareas hacia un control robótico flexible impulsado por el lenguaje.
"GR-3 está diseñado como un cerebro robótico de propósito general que puede entender lo que quieres y descubrir cómo hacerlo", declaró el equipo Seed de ByteDance. El modelo cierra la brecha entre la comprensión del lenguaje de alto nivel y el control motor de bajo nivel, permitiendo a los robots ejecutar secuencias de manipulación complejas de forma autónoma.
Este logro se considera un avance crítico hacia sistemas de IA incorporada que puedan operar en entornos no estructurados — hogares, almacenes y centros de salud — donde las tareas son variadas e impredecibles.
