L'équipe Seed de ByteDance a officiellement lancé GR-3, un modèle Vision-Langage-Action (VLA) de nouvelle génération conçu pour la manipulation robotique polyvalente, marquant une étape importante vers un cerveau robotique véritablement universel.
Contrairement aux modèles de manipulation robotique traditionnels qui reposent sur de grandes quantités de données de trajectoire pour l'apprentissage, le GR-3 démontre des capacités révolutionnaires pour comprendre des instructions linguistiques incluant des concepts abstraits et manipuler avec précision des objets flexibles tels que des câbles, des tissus et des matériaux mous — des tâches qui ont longtemps posé des défis à la robotique conventionnelle.
Le modèle présente de fortes capacités de généralisation avec peu d'exemples, lui permettant de s'adapter rapidement à de nouvelles tâches et de reconnaître de nouveaux objets avec un minimum de données d'entraînement supplémentaires. Cela représente un changement fondamental, passant d'une programmation robotique rigide et spécifique à une tâche vers un contrôle robotique flexible piloté par le langage.
"Le GR-3 est conçu comme un cerveau robotique polyvalent qui peut comprendre ce que vous voulez et trouver comment le faire", a déclaré l'équipe Seed de ByteDance. Le modèle comble le fossé entre la compréhension linguistique de haut niveau et le contrôle moteur de bas niveau, permettant aux robots d'exécuter des séquences de manipulation complexes de manière autonome.
