GE-Sim 2.0 : Générer un monde avec un modèle de monde, et Yushu Keiteki propulse les robots humanoïdes vers une évolution autonome

L’intelligence incarnée (Embodied AI) est en train de franchir un tournant décisif. Ces derniers jours, le robotiqueur chinois Yuanbot a publié Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), dans le but de faire évoluer le World Model (modèle du monde) : le faire passer d’un simple outil pour comprendre l’environnement à un simulateur du monde (World Simulator) capable d’exécuter, d’entraîner et d’optimiser directement des robots.

Si vous ne voyez pas encore à quel point c’est crucial, commencez par regarder les failles structurelles de l’architecture LLM : du point de vue de l’entraînement, les LLM existants ne font qu’anticiper le contexte en fonction d’immenses corpus; ils peuvent savoir que ces mots « une pomme tombe » apparaissent souvent ensemble, mais ils ne comprennent pas réellement les relations causales de la gravité ou du monde physique.

C’est aussi pour cela que des scientifiques comme Yang LeCun et Fei-Fei Li se sont investis dans la course au World Model. Lorsque l’IA disposera de capacités de compréhension d’environnements 3D et de prédiction physique, cette technologie deviendra le « cerveau numérique » des « IA physiques » (Physical AI) comme les robots autonomes, la conduite automatisée et la fabrication intelligente. Ainsi, la feuille de route du World Model affirme que les robots seront un porteur extrêmement important. Aujourd’hui, l’entrée dans la danse du constructeur de robots humanoïdes Yuanbot, symbolise l’avant-garde de la reconquête de la Chine par le matériel.

Le président du conseil d’administration de TSMC, Wei Zhejia, avait déjà déclaré : si l’on regarde la Chine continentale, ils fabriquent des robots qui sautent, qui sautillent et qui bondissent. Ce n’est pas utile, c’est juste fait pour être beau. Il a souligné que l’essentiel est de permettre au « cerveau » du robot de fonctionner, et que qui le fait ? Nvidia (Nvidia), AMD (AMD) et une foule d’entreprises américaines; mais 95% des cerveaux sont fabriqués par TSMC. Le goulot d’étranglement du développement de GE-Sim 2.0 reste en jeu, fortement lié au développement des modèles en Chine.

La feuille de route du World Model affirme que les robots sont l’élément clé

Les LLM dominants actuels s’appuient sur d’immenses corpus et des relations statistiques pour comprendre le contexte et prédire le mot suivant. Ils peuvent savoir que les mots « une pomme tombe » apparaissent souvent ensemble, mais ils ne comprennent pas réellement les relations causales de la gravité ou du monde physique.

Ce modèle excelle dans la génération de texte, l’assistance à la programmation ou les tâches de question-réponse. Toutefois, dans des scénarios qui exigent de comprendre la structure du monde réel, de raisonner les relations causales et de faire de la planification à long terme, il subsiste des limites fondamentales. Le problème encore plus grave, c’est que la source de données s’assèche progressivement. L’entraînement des LLM dépend fortement de données humaines de haute qualité, et ces dernières années, l’industrie a commencé à avertir : les textes humains disponibles pourraient être consommés d’ici quelques années. À ce moment-là, comme consanguin à l’extrême qui entraîne des défauts héréditaires, le modèle finit par s’éloigner progressivement de la réalité et par voir ses performances se dégrader.

(Analyse approfondie : les LLM ont-ils des défauts ? Pourquoi Yang LeCun mise sur la voie du World Model avec l’AMI)

C’est aussi pour cela que, ces dernières années, deux figures majeures de la recherche en IA, Yang LeCun et Fei-Fei Li, surnommée la « marraine de l’IA », ont toutes deux choisi de parier sur une nouvelle génération d’architecture d’IA appelée World Model (modèle du monde).

À l’époque, l’auteur avait déclaré : en regardant plus loin, lorsque l’IA disposera de capacités de compréhension d’environnements 3D et de prédiction physique, cette technologie deviendra le « cerveau numérique » des « IA physiques » (Physical AI) telles que les robots autonomes, la conduite automatisée et la fabrication intelligente. Par conséquent, la feuille de route du World Model affirme que les robots seront un porteur extrêmement important. Aujourd’hui, l’entrée du constructeur de robots humanoïdes Yuanbot dans la partie symbolise l’avant-garde de la reconquête par le matériel en Chine.

Le président du conseil d’administration de TSMC, Wei Zhejia, s’est exprimé sans détour sur le développement des robots et des semi-conducteurs : si l’on regarde la Chine continentale, ils font des robots qui sautent et bondissent sans arrêt. Cela ne sert à rien, c’est juste pour faire joli. Il a indiqué que l’essentiel est que le cerveau du robot puisse fonctionner; et quant à savoir qui le fait : Nvidia (Nvidia), AMD (AMD) et une multitude d’entreprises américaines, mais 95% des cerveaux sont fabriqués par TSMC.

(Wei Zhejia de TSMC se moque : les robots chinois sautillent, ce n’est qu’un coup d’apparence—la vraie clé vient toujours de Nvidia)

Évolution du World Model : de la compréhension du monde à l’apprentissage dans le monde

Au cours des dernières années, le World Model a été considéré comme une technologie clé pour que l’IA comprenne la réalité. Grâce aux images, au langage et aux données de capteurs, le modèle peut prédire les changements de l’environnement, donnant aux robots des capacités de décision de base.

Mais la percée centrale de GE-Sim 2.0 ne réside pas seulement dans la compréhension du monde : elle consiste à faire en sorte que, dans un « monde généré par le modèle », le système d’apprentissage et d’action intègre l’action (Action) comme variable centrale. On passe ainsi des prédictions d’état traditionnelles à une boucle complète :

State

Action

State Evolution

Cela signifie que les robots ne se contentent plus d’observer et de réagir : ils peuvent essayer activement dans un environnement de simulation, s’optimiser en autonomie et apprendre en continu. Ce changement permet à World Model d’évoluer d’un « modèle cognitif » vers une « infrastructure d’entraînement ».

GE-Sim 2.0 : faire « évoluer » les robots dans un monde virtuel

GE-Sim 2.0 est défini comme un ensemble de « simulateurs de monde incarnés ». Son objectif central est de résoudre trois goulots d’étranglement majeurs de l’entraînement dans le réel : des coûts trop élevés, un manque de données et une difficulté à passer à l’échelle. En générant des environnements via des modèles, le système peut entraîner massivement des robots sans dépendre du monde réel.

Sur le plan technique, GE-Sim 2.0 intègre trois capacités clés : d’abord, la « génération d’images pilotée par l’action ». Le modèle peut générer les images futures correspondantes à partir des actions du robot, tout en conservant une cohérence multi-angles, y compris le point de vue de la tête et les perspectives d’opération des mains gauche et droite.

Ensuite, il y a la modélisation de la proprioception : non seulement simuler les images externes, mais aussi prédire les articulations et l’état des mouvements du robot lui-même, afin que les décisions se rapprochent davantage du monde physique réel.

Troisièmement, il y a « l’évaluation automatique des tâches ». Grâce à un reward model (modèle de récompense) intégré, le système peut déterminer automatiquement si une tâche est accomplie, par exemple « placer un objet bleu dans une boîte rouge », puis fournir un retour, qui est directement utilisé pour l’apprentissage par renforcement. Cela permet au robot d’exécuter une boucle de rétroaction complète dans l’environnement de simulation :

GE-Sim 2.0 sait déjà générer des vidéos « à l’échelle de minutes » avec stabilité

Par rapport aux modèles précédents capables uniquement de générer de courts segments, GE-Sim 2.0 permet désormais de générer des vidéos stables « à l’échelle de minutes », et prend en charge des simulations de tâches sur des durées longues. En même temps, grâce à l’entraînement sur de larges volumes de données réelles (données d’opérations à distance, de déploiement et d’interactions), le modèle présente de meilleures capacités de généralisation entre différents scénarios et tâches. Ce point est particulièrement crucial pour les robots humanoïdes : dans le monde réel, les opérations sont très variables, et l’entraînement ne peut pas reposer uniquement sur des scénarios fixes.

L’apparition de World Simulator signifie que les robots peuvent « s’entraîner indéfiniment » dans le monde virtuel. Cela entraînera deux changements structurels : premièrement, les coûts d’entraînement chuteront fortement. Deuxièmement, la vitesse d’itération des capacités augmentera de façon exponentielle.

Yuanbot : une nouvelle force dans les robots humanoïdes en Chine

Yuanbot a été fondée en 2023 par Peng Zhihui, le « prodige » de Huawei, et se concentre sur le domaine de l’intelligence incarnée, à la croisée de l’IA et de la robotique.

Les produits phares de l’entreprise comprennent :

la série de robots humanoïdes « Expedition »

le système de robots « Lingxi »

le grand modèle généraliste GO-1

À l’heure actuelle, l’entreprise a déjà achevé plusieurs tours de financement et a reçu des investissements d’institutions telles que Sequoia China et Hillhouse Capital; elle est considérée comme un acteur important dans le domaine des robots humanoïdes en Chine, dans une logique de concurrence avec la société Unitree.

Cet article « Yuanbot GE-Sim 2.0 : générer un monde avec World Model, l’ennemi de Unitree propulse les robots humanoïdes vers l’auto-évolution » est apparu pour la première fois sur ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

DeepSeek lance les modèles V4-Pro et V4-Flash à un coût inférieur de 98 % à celui du GPT-5.5 Pro d’OpenAI

Message de Gate News, 25 avril — DeepSeek a publié des versions préliminaires de V4-Pro et V4-Flash le 24 avril, deux modèles open-weight avec des fenêtres de contexte d’un million de tokens. V4-Pro dispose de 1,6 billion de paramètres au total, mais n’active que 49 milliards par passe d’inférence en utilisant une architecture de type Mixture-of-Experts.

GateNewsIl y a 5h

Le juge rejette les allégations de fraude dans la plainte d’Elon Musk contre OpenAI ; l’affaire progresse vers un procès avec deux allégations restantes

Message de Gate News, 24 avril — Un juge fédéral a rejeté les allégations de fraude dans la plainte d’Elon Musk contre OpenAI, Sam Altman, Greg Brockman et Microsoft, ouvrant la voie à la poursuite de l’affaire devant le tribunal sur deux allégations restantes : violation de la confiance à but caritatif et enrichissement injustifié. États-Unis.

GateNewsIl y a 8h

Le PDG d'OpenAI, Sam Altman, s'excuse d'avoir omis de signaler à la police le compte banni du tireur de l'école

Message de Gate News, 25 avril — Le PDG d'OpenAI, Sam Altman, a présenté ses excuses à la communauté de Tamborine, au Canada, pour l'incapacité de l'entreprise à prévenir la police au sujet d'un compte banni lié à Jesse Van Rootselaar, qui a tué huit personnes dans une école en février avant de mettre fin à ses jours. OpenAI

GateNewsIl y a 8h

Les Émirats arabes unis annoncent une transition vers un modèle de gouvernement basé sur l’IA au cours des deux prochaines années

Son Altesse Cheikh Mohammed bin Rashid Al Maktoum a déclaré que l’objectif était que 50% des secteurs gouvernementaux fonctionnent grâce à une IA agentique autonome. La transition comprendra également la formation des employés fédéraux pour « maîtriser l’IA », et sera supervisée par Cheikh Mansour bin Zayed. Points clés :

CoinpediaIl y a 9h

La plateforme de trading d’IA Fere AI lève 1,3 M$ de fonds, menée par Ethereal Ventures

Message de Gate News, 25 avril — Fere AI, une plateforme de trading d’actifs numériques propulsée par l’IA, a annoncé avoir finalisé un tour de financement de 1,3 million de dollars mené par Ethereal Ventures, avec la participation de Galaxy Vision Hill et de Kosmos Ventures, selon Globenewswire. La plateforme prend en charge des réseaux inter-chaînes

GateNewsIl y a 10h

Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU

Alphabet augmente sa mise sur Anthropic à 40 milliards de dollars, en deux étapes : première injection de 10 milliards de dollars en espèces, valorisation à 3 800 milliards de dollars ; les 300 milliards de dollars restants seront libérés par tranches après l’atteinte des objectifs de performance. Google Cloud fournira 5 GW de ressources de calcul TPU sur cinq ans ; dans le même temps, Amazon a également annoncé un investissement pouvant aller jusqu’à 25 milliards de dollars, ce qui montre que le soutien en puissance de calcul et en capitaux d’Anthropic se renforce en parallèle.

ChainNewsAbmediaIl y a 10h
Commentaire
0/400
Aucun commentaire