What is embodied intelligence?

Embodied intelligence (also called physical AI) refers to AI systems that can perceive, reason about, and interact with the physical world through a body or embodiment, such as humanoid robots, robotic arms, and autonomous vehicles.

What are humanoid robots?

Humanoid robots are robots designed to resemble and mimic the human body form and movements. They are being developed for applications in manufacturing, healthcare, hospitality, and domestic assistance.

How is China leading embodied AI innovation?

China has become a global leader in embodied AI through massive government investment, rapid deployment of humanoid robots in manufacturing, breakthroughs in dexterous manipulation, and a growing ecosystem of startups like AGIBOT and StarDust Era.

What content does Embodied Global cover?

Embodied Global covers the latest news, research breakthroughs, funding rounds, product launches, and industry trends in embodied intelligence, humanoid robotics, and physical AI, with a focus on Chinese innovations translated into English, Spanish, and French.

How often is Embodied Global updated?

Embodied Global is updated daily with the latest news and developments in embodied intelligence. Articles are published in three languages simultaneously to reach a global audience.

Thinker: Un Modelo Fundamental de Visión-Lenguaje para la Inteligencia Incorporada Logra Resultados Punteros en Evaluaciones Robóticas

Investigadores han presentado Thinker, un modelo fundamental de visión-lenguaje de 7 mil millones de parámetros diseñado específicamente para inteligencia incorporada, logrando resultados de última generación en evaluaciones clave de planificación de tareas robóticas. El modelo aborda desafíos fundamentales con los que incluso los VLM avanzados luchan en robótica, incluyendo la confusión entre perspectivas en tercera y primera persona y la tendencia a pasar por alto información en los finales de videos durante el razonamiento.

Thinker emplea una estrategia de entrenamiento en dos etapas. La Etapa 1 establece capacidades básicas de percepción y razonamiento utilizando una combinación de conjuntos de datos generales, datos de comprensión espacial y conjuntos de datos de planificación a gran escala. La Etapa 2 aplica ajuste fino supervisado para la alineación de tareas específicas. Una innovación crítica radica en su enfoque de comprensión de video: al incorporar conjuntamente fotogramas clave y videos completos como entradas, el modelo mejora sustancialmente la comprensión temporal.

El equipo de investigación construyó un conjunto de datos integral de planificación robótica de 1.8 millones de muestras llamado Robovideo-1.8M, junto con un conjunto de datos de planificación de tareas industriales Industroplan-200K. Los datos de entrenamiento adicionales incluyen más de 570,000 muestras de anclaje visual para comprensión espacial detallada y 100,000 muestras de razonamiento en primera persona.

En la evaluación Robovqa, Thinker-7B logró una puntuación BLEU promedio de 63.5, superando a GPT-4V y todos los modelos robóticos de visión-lenguaje existentes. En la evaluación Egoplan-bench2, alcanzó un 58.2% de precisión top-1, superando exhaustivamente a todas las líneas base, incluyendo Qwen2.5-VL-7B y Cosmos-Reason1-7B.

Las contribuciones clave del documento incluyen: la construcción del conjunto de datos de planificación robótica dedicado más grande (Robovideo-1.8M), el desarrollo de un modelo de visión-lenguaje especializado de 7B parámetros para manipulación robótica, el logro de SOTA en múltiples evaluaciones robóticas y el compromiso de abrir el código del informe técnico completo, la arquitectura y los pesos.

Language: Spanish- Showing content in Spanish

Trending Now

Industry

2026: The Year of Embodied AI Mass Production - 34.5 Billion Yuan in Funding and State Grid's 6.8 Billion Procurement

May 8, 2026 · 493 views

Research

Top 10 Embodied AI Advances (2025-2026) Released: China's Humanoid Robots Enter 'Work Mode' Era

Jun 19, 2026 · 315 views

Funding

China Q1 2026 Embodied AI Funding Reaches 556 Billion Yuan

Apr 29, 2026 · 214 views

Research

NVIDIA GEAR Lab Releases ENPIRE: AI Agents That Autonomously Run Real Robot Experiments in the Physical World

Jun 18, 2026 · 195 views

View full leaderboard

More in Research

Research

Holi-Spatial: ICML 2026 Oral — Fully Automated 3D Spatial Intelligence Data Pipeline with 4M-Scale Dataset

Jun 21, 2026

Research

MemoryWAM: New World Action Model with Persistent Memory Achieves Breakthrough in Long-Horizon Robot Manipulation

Jun 21, 2026

Research

Aether AI Raises $20M to Build Causal World Models for Embodied Intelligence — A New Paradigm Beyond Scaling Laws

Jun 21, 2026

Galaxy General Launches AstraBrain-WBC 0.5: The World's First Humanoid 'Cerebellum' GPT Foundation Model CAAI Releases Embodied Intelligence White Paper 2026: Comprehensive Technical Framework Signals Industry Maturation Alibaba Qwen-RobotWorld: A Unified Language-Conditioned Video World Model for Embodied Intelligence

Share this article

Twitter LinkedIn Facebook

Thinker: Un Modelo Fundamental de Visión-Lenguaje para la Inteligencia Incorporada Logra Resultados Punteros en Evaluaciones Robóticas

Trending Now

2026: The Year of Embodied AI Mass Production - 34.5 Billion Yuan in Funding and State Grid's 6.8 Billion Procurement

Top 10 Embodied AI Advances (2025-2026) Released: China's Humanoid Robots Enter 'Work Mode' Era

China Q1 2026 Embodied AI Funding Reaches 556 Billion Yuan

NVIDIA GEAR Lab Releases ENPIRE: AI Agents That Autonomously Run Real Robot Experiments in the Physical World

More in Research

Holi-Spatial: ICML 2026 Oral — Fully Automated 3D Spatial Intelligence Data Pipeline with 4M-Scale Dataset

MemoryWAM: New World Action Model with Persistent Memory Achieves Breakthrough in Long-Horizon Robot Manipulation

Aether AI Raises $20M to Build Causal World Models for Embodied Intelligence — A New Paradigm Beyond Scaling Laws

Mantente al día

Share this article

Comments