La inteligencia encarnada (Embodied AI) está llegando a un punto de inflexión decisivo. En China, el robot humanoide Yuantu Robot recientemente publicó Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), intentando impulsar el World Model (modelo del mundo) desde una herramienta que solo comprende el entorno hasta un simulador de mundo (World Simulator) que pueda ejecutar, entrenar y optimizar directamente robots.

Si todavía no te queda claro lo crucial que esto es, echemos un vistazo primero a las deficiencias estructurales de la arquitectura de los LLM: a nivel de entrenamiento, los LLM existentes solo predicen el contexto en función de grandes volúmenes de datos de entrenamiento; pueden saber que las palabras “el manzana cae” suelen aparecer juntas, pero no comprenden realmente las relaciones causales de la gravedad o del mundo físico.

Por eso científicos como Yann LeCun y Fei-Fei Li se han volcado en la línea de World Model: cuando la IA tenga la capacidad de comprender entornos 3D y de predecir la física, esta tecnología se convertirá en el “cerebro digital” de la IA “física” (Physical AI), como robots autónomos, conducción automática y fabricación inteligente. Por tanto, la ruta de World Model sostiene que los robots serán un portador extremadamente clave. Hoy, la entrada de los fabricantes de robots humanoides, como Yuantu Robot, simboliza al pionero de China que se recupera primero mediante hardware.

Anteriormente, el presidente del consejo de Taiwan Semiconductor Manufacturing Company (TSMC), Wei Zhejia, había dicho: “Si miras a China continental, siempre están haciendo robots que saltan, brincan y se tiran al suelo. Eso no sirve; es solo para verse bien”. Señaló que la clave está en lograr que el “cerebro” del robot pueda funcionar, y quién lo hace: Nvidia (Nvidia), AMD (AMD) de Super Micro y un montón de empresas estadounidenses; pero el 95% del “cerebro” lo fabrica TSMC. Todavía hay un cuello de botella en el desarrollo de GE-Sim 2.0, y se vincula fuertemente con el desarrollo de modelos en China.

La ruta de World Model sostiene que los robots son la clave

Los LLM actuales dominantes dependen de grandes volúmenes de datos y de relaciones estadísticas para comprender el contexto y predecir la siguiente palabra. Pueden saber que las palabras “el manzana cae” suelen aparecer juntas, pero no comprenden de verdad las relaciones causales de la gravedad o del mundo físico.

Este tipo de patrón se desempeña muy bien en generación de texto, asistencia de programación o tareas de preguntas y respuestas, pero todavía existen limitaciones fundamentales en escenarios que requieren comprender la estructura del mundo real, razonar relaciones causales y planificar a largo plazo. El problema aún mayor es que las fuentes de datos se están agotando gradualmente. El entrenamiento de los LLM depende en gran medida de datos humanos de alta calidad; y en los últimos años, la industria ya ha empezado a advertir que los datos de texto humanos disponibles podrían consumirse por completo en los próximos años. Entonces sería como la endogamia, que puede heredar defectos y, finalmente, hacer que el modelo se desvíe gradualmente de la realidad y aparezca una degradación del rendimiento.

(Análisis profundo: ¿Existen fallas en los LLM? ¿Por qué Yann LeCun apuesta por la ruta de World Model con AMI?)

Por eso, en los últimos años, dos figuras de peso en el mundo de la IA, Yann LeCun y Fei-Fei Li, conocida como “la madrina de la IA”, también han elegido apostar por una nueva arquitectura de IA conocida como World Model (modelo del mundo).

En ese entonces, el autor había mencionado: viéndolo en perspectiva, cuando la IA tenga la capacidad de comprender entornos 3D y de predecir la física, esta tecnología se convertirá en el “cerebro digital” de la Physical AI (IA física) para robots autónomos, conducción automática y fabricación inteligente. Por lo tanto, la ruta de World Model sostiene que los robots serán un portador extremadamente clave. Hoy, la entrada de Yuantu Robot, fabricante de robots humanoides a escala real, simboliza al pionero de China en su contraataque mediante hardware.

Anteriormente, el presidente de TSMC, Wei Zhejia, al hablar sobre el desarrollo de robots y semiconductores, fue directo: si miras a China continental haciendo robots que saltan y brincan todo el tiempo, eso no sirve; es solo para verse bien. Señaló que la clave está en lograr que el cerebro del robot pueda operar, y de quién se trata: Nvidia (Nvidia), AMD (AMD) de Super Micro y un montón de empresas estadounidenses; pero el 95% del cerebro lo fabrica TSMC.

(Crítica de Wei Zhejia de TSMC: los robots de China saltan y brincan, ¡solo es para verse bien, no sirve! ¡La clave aún proviene de Nvidia)

Evolución de World Model: de comprender el mundo a aprender dentro del mundo

Durante los últimos años, World Model se ha considerado una tecnología clave para que la IA comprenda la realidad. Mediante imágenes, lenguaje y datos de sensores, el modelo puede predecir cambios del entorno, dotando a los robots de capacidades básicas de toma de decisiones.

Pero el avance central de GE-Sim 2.0 no está solo en comprender el mundo, sino en aprender y en un sistema de acción directamente dentro del “mundo generado por el modelo”. Incluir Acción (Action) como una variable central eleva el proceso desde la predicción tradicional del estado a un ciclo completo:

State

Action

State Evolution

Esto significa que el robot ya no es solo un observador y un respondedor, sino que puede probar de forma proactiva en un entorno de simulación, optimizar de manera autónoma y seguir aprendiendo. Este cambio hace que World Model evolucione de “modelo cognitivo” a “infraestructura de entrenamiento”.

GE-Sim 2.0: hacer que los robots “evolucionen” en un mundo virtual

GE-Sim 2.0 se define como un conjunto de “simuladores de mundo encarnado”, con el objetivo central de resolver tres cuellos de botella del entrenamiento en la vida real: costos demasiado altos, falta de datos y dificultad para escalar. Al generar entornos mediante modelos, el sistema puede entrenar robots a gran escala sin depender del mundo real.

Técnicamente, GE-Sim 2.0 integra tres capacidades clave: primero, la “generación de imágenes guiada por acciones”. El modelo puede generar las imágenes futuras correspondientes según las acciones del robot y mantener la consistencia en múltiples puntos de vista, incluyendo la vista desde la cabeza y los puntos de vista de operaciones con la mano izquierda y derecha.

En segundo lugar, modelado de percepción del propio cuerpo (proprioception). No solo simula imágenes externas, sino que también puede predecir las articulaciones del propio robot y los estados de acción, haciendo que la toma de decisiones se acerque más al mundo físico real.

En tercer lugar, “evaluación automática de tareas”. A través de un reward model (modelo de recompensas) integrado, el sistema puede determinar automáticamente si la tarea se ha completado; por ejemplo, “colocar el objeto azul en la caja roja”, y proporcionar retroalimentación que se usa directamente para aprendizaje por refuerzo. Esto permite que el robot complete un ciclo cerrado completo en el entorno simulado:

GE-Sim 2.0 ya puede lograr generación de video “a nivel de minutos” estable

En comparación con modelos anteriores que solo podían generar fragmentos cortos, GE-Sim 2.0 ya puede lograr una generación de video estable “a nivel de minutos”, respaldando simulaciones de tareas durante largos periodos. Al mismo tiempo, mediante entrenamiento con grandes volúmenes de datos reales (datos de operación remota, despliegue e interacción), el modelo cuenta con una mayor capacidad de generalización entre diferentes escenarios y tareas. Este punto es especialmente clave para los robots humanoides: porque las operaciones del mundo real son altamente variables y no se pueden entrenar solo con escenarios fijos.

La aparición de World Simulator significa que los robots pueden “practicar sin límites” en el mundo virtual. Esto traerá dos cambios estructurales: primero, los costos de entrenamiento disminuyen drásticamente. Segundo, la velocidad de iteración de capacidades aumenta exponencialmente.

Yuantu Robot: nueva fuerza de robots humanoides en China

Yuantu Robot se fundó en 2023, por Peng Zhihui, el “genio adolescente” de Huawei. La empresa se enfoca en el campo de inteligencia encarnada que integra IA y robótica.

Los productos principales de la empresa incluyen:

Robots humanoides de la serie “Yuanjing” (遠征)

Sistema de robots “Lingxi” (靈犀)

Modelo general GO-1

Actualmente ha completado múltiples rondas de financiación y ha recibido inversiones de instituciones como Sequoia China y Hillhouse Capital, y se considera un actor importante en el sector de robots humanoides de China, compitiendo en un esquema de competencia con Unitree Technology.

Este artículo, Yuantu GE-Sim 2.0: generar el mundo con World Model; el enemigo de Unitree impulsa los robots humanoides hacia la autoevolución, apareció por primera vez en Chain News ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

CEO de Google Cloud: Gemini impulsará el lanzamiento de la Siri personalizada de Apple en 2026

Noticias de la industria de la IA

Resumen: Gemini impulsará una Siri personalizada de Apple en 2026, construida sobre los Foundation Models de Apple y la colaboración con Gemini; Apple prueba una Siri con aspecto de chat en iOS 27/macOS 27, prevista para el WWDC 2026. Resumen: Google Cloud's Gemini está listo para impulsar una Siri personalizada de Apple para 2026, combinando Gemini con los Foundation Models de Apple bajo una colaboración de aproximadamente $1 billion. Apple está probando una Siri rediseñada, con aspecto de chat, en iOS 27/macOS 27, con una interfaz de Dynamic Island y nuevas funciones, antes del anuncio en el WWDC 2026 el 8 de junio.

GateNewsHace22m

El acuerdo $60B SpaceX-Cursor proporciona nueva evidencia para los argumentos de indulto de SBF

Noticias de la industria de la IA

Resumen SpaceX anuncia una asociación de $60 mil millones con Cursor, con una opción para adquirirla, dando forma a la solicitud de indulto de SBF, ya que la participación temprana de Cursor de Alameda valdría hoy aproximadamente $3 mil millones. La pieza analiza las afirmaciones de insolvencia de SBF, la campaña de sus padres, las objeciones de los acreedores y las escasas probabilidades de indulto. Resumen El acuerdo SpaceX-Cursor impulsa la solicitud de indulto de SBF; la participación de $200k de Alameda sería de ~ $3B hoy (15,000x). SBF sostiene que FTX era insolvente; los mercados muestran bajas probabilidades de indulto; Trump probablemente no indultará.

GateNewsHace29m

Las acciones de Chegg caen 99% mientras la IA altera el mercado de tecnología educativa

Acciones Noticias de la industria de la IA

Resumen: Chegg se disparó durante la demanda de la educación en línea; luego, las herramientas de IA interrumpieron su modelo, lo que provocó despidos masivos y una caída por debajo de $2, con cambios más amplios impulsados por la IA que golpearon a los mineros de cripto y a las firmas de tecnología financiera. Resumen: Este artículo examina el auge de Chegg como la favorita de edtech en la era de la pandemia y su consiguiente declive en medio de la rápida adopción de la IA generativa, que ofrece respuestas rápidas y debilita la propuesta de valor de Chegg. Documenta los despidos de 2025 y la caída de la acción hacia la exclusión de cotización, y enmarca la experiencia de Chegg dentro de una disrupción más amplia impulsada por la IA que está reconfigurando la tecnología y el cripto: los mineros de Bitcoin se reconvierten hacia operaciones de IA, y las estrategias nativas de IA redefinen la competitividad en fintech y más allá.

CryptoFrontierHace40m

OpenAI lanza un modelo de Filtro de Privacidad de código abierto para la detección y anonimización de PII

Noticias de la industria de la IA

Resumen: El Filtro de Privacidad de OpenAI es un modelo de código abierto, ejecutable localmente, que detecta y anonimiza datos de información personal (PII) en texto. Admite contextos extensos, identifica muchas categorías de PII y está pensado para flujos de trabajo que preservan la privacidad, como la preparación de datos, la indexación, el registro (logging) y la moderación. El Filtro de Privacidad de OpenAI es un modelo de código abierto y ejecutado localmente (128k-token context) que detecta y anonimiza PII en texto, cubriendo datos de contacto, financieros y de credenciales para flujos de trabajo de privacidad.

GateNewshace1h

OpenAI planea desplegar 30GW de potencia informática para 2030

Noticias de la industria de la IA

OpenAI aspira a contar con 30GW de capacidad informática para 2030 para satisfacer la creciente demanda de IA, con 8GW ya completados de un objetivo de 10GW para 2025. La expansión señala una estrategia para ampliar la infraestructura para el desarrollo y despliegue de la IA de próxima generación. OpenAI pretende alcanzar 30GW de potencia informática para 2030 para atender la creciente demanda de IA, habiendo ya completado 8GW de un objetivo de 10GW para 2025. La medida refleja una expansión estratégica de la infraestructura para respaldar el desarrollo y despliegue de la IA de próxima generación.

GateNewshace1h

El agente de descubrimiento de vulnerabilidades impulsado por IA de 360 encuentra casi 1.000 exploits de día cero, compitiendo con Mythos

Agente de IA Noticias de la industria de la IA

El agente impulsado por IA de 360 Digital Security afirma haber encontrado alrededor de 1.000 vulnerabilidades nuevas, incluidas en Office y OpenClaw; la IA ahora es clave para el descubrimiento y la preparación de la cadena de explotación, compitiendo con Mythos. Resumen: Un informe citado por Bloomberg señala que el Agente de Descubrimiento de Vulnerabilidades impulsado por IA de 360 Digital Security Group identificó cerca de 1.000 vulnerabilidades previamente desconocidas en los últimos meses, incluidas en Microsoft Office y el framework OpenClaw. La empresa afirma que la IA se ha convertido en el motor central del descubrimiento de vulnerabilidades y ha anunciado una herramienta de IA para acelerar la construcción de cadenas de explotación. Benincasa describe a 360 como un competidor de Mythos, de Anthropic, basándose en la revisión de Natto Thoughts sobre los anuncios en idioma chino de la empresa.

GateNewshace1h

Comentar

0/400

Sin comentarios