What is embodied intelligence?

Embodied intelligence (also called physical AI) refers to AI systems that can perceive, reason about, and interact with the physical world through a body or embodiment, such as humanoid robots, robotic arms, and autonomous vehicles.

What are humanoid robots?

Humanoid robots are robots designed to resemble and mimic the human body form and movements. They are being developed for applications in manufacturing, healthcare, hospitality, and domestic assistance.

How is China leading embodied AI innovation?

China has become a global leader in embodied AI through massive government investment, rapid deployment of humanoid robots in manufacturing, breakthroughs in dexterous manipulation, and a growing ecosystem of startups like AGIBOT and StarDust Era.

What content does Embodied Global cover?

Embodied Global covers the latest news, research breakthroughs, funding rounds, product launches, and industry trends in embodied intelligence, humanoid robotics, and physical AI, with a focus on Chinese innovations translated into English, Spanish, and French.

How often is Embodied Global updated?

Embodied Global is updated daily with the latest news and developments in embodied intelligence. Articles are published in three languages simultaneously to reach a global audience.

Thinker : Un Modèle Fondamental Vision-Langage pour l'Intelligence Incarnée Atteint des Résultats de Pointe sur les Références Robotiques

Des chercheurs ont présenté Thinker, un modèle fondamental vision-langage de 7 milliards de paramètres conçu spécifiquement pour l'intelligence incarnée, atteignant des résultats de pointe sur des benchmarks clés de planification de tâches robotiques. Le modèle aborde des défis fondamentaux que même les VLM avancés rencontrent en robotique, notamment la confusion entre les perspectives à la troisième et à la première personne et la tendance à négliger les informations de fin de vidéo lors du raisonnement.

Thinker utilise une stratégie d'entraînement en deux étapes. L'étape 1 établit des capacités de base de perception et de raisonnement en utilisant un mélange d'ensembles de données généraux, de données de compréhension spatiale et d'ensembles de données de planification à grande échelle. L'étape 2 applique un ajustement supervisé pour l'alignement des tâches spécifiques. Une innovation cruciale réside dans son approche de compréhension vidéo : en incorporant conjointement des images clés et des vidéos complètes comme entrées, le modèle améliore considérablement la compréhension temporelle.

L'équipe de recherche a construit un ensemble de données complet de planification robotique de 1,8 million d'échantillons appelé Robovideo-1.8M, ainsi qu'un ensemble de données de planification de tâches industrielles Industroplan-200K. Les données d'entraînement supplémentaires comprennent plus de 570 000 échantillons d'ancrage visuel pour la compréhension spatiale fine et 100 000 échantillons de raisonnement en première personne.

Sur le benchmark Robovqa, Thinker-7B a obtenu un score BLEU moyen de 63,5, surpassant GPT-4V et tous les modèles robotiques vision-langage existants. Sur le benchmark Egoplan-bench2, il a atteint 58,2% de précision top-1, surpassant de manière exhaustive toutes les références, y compris Qwen2.5-VL-7B et Cosmos-Reason1-7B.

Les contributions clés de l'article comprennent : la construction du plus grand ensemble de données dédié à la planification robotique (Robovideo-1.8M), le développement d'un modèle vision-langage spécialisé de 7B paramètres pour la manipulation robotique, l'obtention de résultats de pointe sur plusieurs benchmarks robotiques prouvant la valeur de l'entraînement spécialisé, et un engagement à open-sourcer le rapport technique complet, l'architecture et les poids.

Language: French- Showing content in French

Trending Now

Industry

2026: The Year of Embodied AI Mass Production - 34.5 Billion Yuan in Funding and State Grid's 6.8 Billion Procurement

May 8, 2026 · 493 views

Research

Top 10 Embodied AI Advances (2025-2026) Released: China's Humanoid Robots Enter 'Work Mode' Era

Jun 19, 2026 · 315 views

Funding

China Q1 2026 Embodied AI Funding Reaches 556 Billion Yuan

Apr 29, 2026 · 214 views

Research

NVIDIA GEAR Lab Releases ENPIRE: AI Agents That Autonomously Run Real Robot Experiments in the Physical World

Jun 18, 2026 · 195 views

View full leaderboard

More in Research

Research

Holi-Spatial: ICML 2026 Oral — Fully Automated 3D Spatial Intelligence Data Pipeline with 4M-Scale Dataset

Jun 21, 2026

Research

MemoryWAM: New World Action Model with Persistent Memory Achieves Breakthrough in Long-Horizon Robot Manipulation

Jun 21, 2026

Research

Aether AI Raises $20M to Build Causal World Models for Embodied Intelligence — A New Paradigm Beyond Scaling Laws

Jun 21, 2026

Galaxy General Launches AstraBrain-WBC 0.5: The World's First Humanoid 'Cerebellum' GPT Foundation Model CAAI Releases Embodied Intelligence White Paper 2026: Comprehensive Technical Framework Signals Industry Maturation Alibaba Qwen-RobotWorld: A Unified Language-Conditioned Video World Model for Embodied Intelligence

Share this article

Twitter LinkedIn Facebook

Thinker : Un Modèle Fondamental Vision-Langage pour l'Intelligence Incarnée Atteint des Résultats de Pointe sur les Références Robotiques

Trending Now

2026: The Year of Embodied AI Mass Production - 34.5 Billion Yuan in Funding and State Grid's 6.8 Billion Procurement

Top 10 Embodied AI Advances (2025-2026) Released: China's Humanoid Robots Enter 'Work Mode' Era

China Q1 2026 Embodied AI Funding Reaches 556 Billion Yuan

NVIDIA GEAR Lab Releases ENPIRE: AI Agents That Autonomously Run Real Robot Experiments in the Physical World

More in Research

Holi-Spatial: ICML 2026 Oral — Fully Automated 3D Spatial Intelligence Data Pipeline with 4M-Scale Dataset

MemoryWAM: New World Action Model with Persistent Memory Achieves Breakthrough in Long-Horizon Robot Manipulation

Aether AI Raises $20M to Build Causal World Models for Embodied Intelligence — A New Paradigm Beyond Scaling Laws

Restez informé

Share this article

Comments