Google DeepMind a publié un tout nouveau modèle de base pour robots, Gemini Robotics ER 1.6, où ER représente Embodied Reasoning (raisonnement incarné). Ce modèle atteint l’état de l’art (SOTA) actuel en matière de raisonnement visuel et spatial, et il est déjà disponible via l’API Gemini. Logan Kilpatrick, responsable des relations développeurs chez Google AI, a annoncé cette nouvelle sur les réseaux sociaux. (Source)

Qu’est-ce que le raisonnement incarné (Embodied Reasoning) ?

Le raisonnement incarné fait référence à la capacité d’un modèle IA à comprendre et à raisonner sur le monde physique. Contrairement aux modèles de langage traditionnels, les modèles de raisonnement incarné doivent traiter la position, la forme, la matière et les relations d’interaction physique des objets dans un espace tridimensionnel. Gemini Robotics ER 1.6 est spécialement optimisé pour ce type de tâches, afin que les robots puissent mieux comprendre l’environnement qui les entoure et prendre des décisions d’action appropriées.

Capacités clés

Les principaux avantages de Gemini Robotics ER 1.6 se concentrent sur deux aspects :

Capacité Description Raisonnement visuel Capable d’identifier des objets à partir d’images et de vidéos, de comprendre la structure d’une scène, et d’en tirer des décisions Raisonnement spatial Comprendre la position relative, la distance et la direction des objets dans un espace tridimensionnel, et prendre en charge une planification d’opérations complexe

La combinaison de ces deux capacités permet aux robots de gérer des tâches du monde réel plus complexes. Par exemple, dans un environnement d’entrepôt, le robot doit reconnaître simultanément des objets de formes différentes et calculer le meilleur angle de préhension ainsi que la position de pose : c’est précisément le type de scène dans lequel Gemini Robotics ER 1.6 excelle.

Utiliser via l’API Gemini

Contrairement à de nombreux modèles de robots du passé qui n’en étaient restés qu’au stade des articles de recherche, Gemini Robotics ER 1.6 offre un accès via l’API Gemini. Cela signifie que les développeurs et les fournisseurs de matériel peuvent intégrer directement ce modèle dans leurs propres systèmes de robots, sans avoir à entraîner le modèle à partir de zéro.

L’ouverture de l’API réduit également la difficulté de développer de l’IA pour robots. Dans le passé, développer un système de robot doté de capacités de raisonnement visuel et spatial nécessitait une grande quantité de collecte de données et de travail d’entraînement de modèles. Désormais, les développeurs peuvent se concentrer sur le développement de la conception matérielle et des cas d’usage, en confiant les capacités de raisonnement de base à Gemini Robotics ER 1.6.

Le déploiement de l’IA robot chez Google

Gemini Robotics ER 1.6 est la dernière réalisation de Google DeepMind dans le domaine de la robotique. Des premiers RT-2 à la série Gemini Robotics d’aujourd’hui, Google a continué d’étendre les capacités des grands modèles de langage à l’interaction avec le monde physique. La version ER 1.6 améliore encore la précision du raisonnement par rapport à ses prédécesseurs, et se distingue particulièrement dans les scénarios nécessitant des opérations fines.

À mesure que l’industrie de la robotique entre dans une nouvelle phase de croissance, les modèles de base dotés de puissantes capacités de raisonnement visuel et spatial deviendront une infrastructure clé. Pour en savoir plus sur l’évolution de l’écosystème Gemini, vous pouvez consulter le guide complet Gemini.

Cet article Google lance Gemini Robotics ER 1.6 : modèle robot SOTA, spécialisé dans le raisonnement visuel et spatial est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Le juge rejette les allégations de fraude dans la plainte d’Elon Musk contre OpenAI ; l’affaire progresse vers un procès avec deux allégations restantes

Actualités de l’industrie de l’IA

Message de Gate News, 24 avril — Un juge fédéral a rejeté les allégations de fraude dans la plainte d’Elon Musk contre OpenAI, Sam Altman, Greg Brockman et Microsoft, ouvrant la voie à la poursuite de l’affaire devant le tribunal sur deux allégations restantes : violation de la confiance à but caritatif et enrichissement injustifié. États-Unis.

GateNewsIl y a 1h

Le PDG d'OpenAI, Sam Altman, s'excuse d'avoir omis de signaler à la police le compte banni du tireur de l'école

Actualités de l’industrie de l’IA

Message de Gate News, 25 avril — Le PDG d'OpenAI, Sam Altman, a présenté ses excuses à la communauté de Tamborine, au Canada, pour l'incapacité de l'entreprise à prévenir la police au sujet d'un compte banni lié à Jesse Van Rootselaar, qui a tué huit personnes dans une école en février avant de mettre fin à ses jours. OpenAI

GateNewsIl y a 1h

Les Émirats arabes unis annoncent une transition vers un modèle de gouvernement basé sur l’IA au cours des deux prochaines années

Agent IA Actualités de l’industrie de l’IA

Son Altesse Cheikh Mohammed bin Rashid Al Maktoum a déclaré que l’objectif était que 50% des secteurs gouvernementaux fonctionnent grâce à une IA agentique autonome. La transition comprendra également la formation des employés fédéraux pour « maîtriser l’IA », et sera supervisée par Cheikh Mansour bin Zayed. Points clés :

CoinpediaIl y a 1h

La plateforme de trading d’IA Fere AI lève 1,3 M$ de fonds, menée par Ethereal Ventures

Agent IA Actualités de l’industrie de l’IA

Message de Gate News, 25 avril — Fere AI, une plateforme de trading d’actifs numériques propulsée par l’IA, a annoncé avoir finalisé un tour de financement de 1,3 million de dollars mené par Ethereal Ventures, avec la participation de Galaxy Vision Hill et de Kosmos Ventures, selon Globenewswire. La plateforme prend en charge des réseaux inter-chaînes

GateNewsIl y a 2h

Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU

Actualités de l’industrie de l’IA

Alphabet augmente sa mise sur Anthropic à 40 milliards de dollars, en deux étapes : première injection de 10 milliards de dollars en espèces, valorisation à 3 800 milliards de dollars ; les 300 milliards de dollars restants seront libérés par tranches après l’atteinte des objectifs de performance. Google Cloud fournira 5 GW de ressources de calcul TPU sur cinq ans ; dans le même temps, Amazon a également annoncé un investissement pouvant aller jusqu’à 25 milliards de dollars, ce qui montre que le soutien en puissance de calcul et en capitaux d’Anthropic se renforce en parallèle.

ChainNewsAbmediaIl y a 3h

Les introductions en bourse de SpaceX, OpenAI et Anthropic pourraient attirer plus de $240 milliard, avec un impact potentiel sur la liquidité du marché crypto

Macroéconomie Actions Actualités de l’industrie de l’IA

Message de Gate News, 25 avril — Selon des rapports de marché, SpaceX devrait entrer en bourse en juin avec un objectif de levée de fonds dépassant l’introduction en bourse record de $29 milliard de Saudi Aramco, tandis qu’OpenAI et Anthropic prévoient de s’inscrire sur le marché au second semestre 2026. Les trois sociétés sont prévues pour

GateNewsIl y a 4h

Commentaire

0/400

Aucun commentaire