La Conférence sur la Vision par Ordinateur et la Reconnaissance de Formes 2026 (CVPR), tenue du 3 au 7 juin à Denver, Colorado, a reçu 16 092 soumissions dont 4 089 articles acceptés — un taux d'acceptation de 25,3 % qui a établi de nouveaux records. Parmi les articles primés, l'IA incarnée est apparue comme le thème dominant.
Meilleur Article : D4RT (Google DeepMind / UCL / Oxford) D4RT introduit une architecture de transformateur unifiée qui comprime des séquences vidéo entières en une représentation globale de scène, puis répond à la position 3D de tout point à tout moment via un décodeur léger. Il atteint une amélioration de vitesse 300x par rapport aux méthodes précédentes, atteignant un nouveau SOTA en reconstruction et suivi 4D dynamique.
Mention honorable : NitroGen (NVIDIA / Stanford / Caltech) NitroGen est un modèle fondamental vision-action entraîné sur 40 000 heures de jeux vidéo dans plus de 1 000 jeux. Il atteint une généralisation zero-shot avec jusqu'à 52 % d'amélioration relative du taux de succès par rapport aux modèles entraînés de zéro.
Mention honorable : SAM 3D (Meta Superintelligence Labs) SAM 3D prédit la géométrie, la texture et la disposition à partir d'une seule image, atteignant au moins un taux de victoire de 5:1 dans les tests de préférence humaine. Il permet aux robots d'obtenir une estimation de pose 3D humaine en temps réel à partir d'une seule image.
Meilleur Article Étudiant : CLAY (Tsinghua / Microsoft Research) CLAY présente O-Voxel, générant des actifs 3D avec une qualité sans précédent pour construire rapidement des environnements de simulation pour la recherche en IA incarnée.
Les résultats de CVPR 2026 confirment que la vision par ordinateur est entrée dans une nouvelle ère — de « voir » à « comprendre et agir » — avec l'IA incarnée au centre de cette transformation.
