Google выпускает Gemini Robotics ER 1.6: SOTA-модель для роботов, отличающуюся визуальным и пространственным рассуждением

Google DeepMind представила совершенно новую базовую модель для роботов Gemini Robotics ER 1.6, где ER означает Embodied Reasoning (воплощённое рассуждение). Эта модель достигла текущего наилучшего уровня (SOTA) в задачах визуального и пространственного рассуждения и уже доступна через Gemini API. Руководитель по работе с разработчиками в Google AI Логан Килпатрик (Logan Kilpatrick) сообщил об этом в социальных сетях. (Источник)

Что такое Embodied Reasoning?

Embodied Reasoning — это способность ИИ понимать и рассуждать о физическом мире. В отличие от традиционных языковых моделей, воплощённые модели рассуждения должны обрабатывать положения, формы, материалы и физические связи взаимодействия объектов в трёхмерном пространстве. Gemini Robotics ER 1.6 специально оптимизирована для таких задач, чтобы робот мог точнее понимать окружающую среду и принимать решения о соответствующих действиях.

Ключевые возможности

Основные преимущества Gemini Robotics ER 1.6 сосредоточены в двух направлениях:

Возможность Описание Визуальное рассуждение Способность распознавать объекты по изображениям и видео, понимать структуру сцены и на их основе принимать решения Пространственное рассуждение Понимание относительного положения, расстояния и направления объектов в трёхмерном пространстве, поддержка сложного планирования операций

Сочетание этих двух возможностей позволяет роботам справляться с более сложными задачами в реальном мире. Например, в складской среде роботу нужно одновременно распознавать предметы разных форм и рассчитывать оптимальный угол захвата и место размещения — именно в таких сценах Gemini Robotics ER 1.6 особенно сильна.

Использование через Gemini API

В отличие от многих прошлых робототехнических моделей, которые оставались лишь на уровне научных работ, Gemini Robotics ER 1.6 уже предоставляет доступ через Gemini API. Это означает, что разработчики и производители оборудования могут напрямую интегрировать эту модель в свои собственные роботизированные системы, не обучая модель с нуля.

Открытие API также снижает порог разработки робототехнического ИИ. Раньше создание роботизированной системы с возможностями визуального и пространственного рассуждения требовало большого объёма сбора данных и работ по обучению моделей. Теперь разработчики могут сосредоточиться на разработке аппаратного дизайна и сценариев применения, а вычислительные возможности нижнего уровня отдать на обработку Gemini Robotics ER 1.6.

Робототехническая стратегия Google

Gemini Robotics ER 1.6 — это последняя разработка Google DeepMind в сфере робототехники. От ранних RT-2 до нынешней серии Gemini Robotics Google продолжает расширять возможности больших языковых моделей на взаимодействие с физическим миром. Версия ER 1.6 на основе предшественников ещё больше улучшает точность рассуждений, особенно демонстрируя более высокие результаты в сценариях, где требуется точная работа.

По мере того как робототехническая индустрия входит в новый этап роста, базовые модели с мощными возможностями визуального и пространственного рассуждения станут ключевой инфраструктурой. Чтобы узнать больше о развитии экосистемы Gemini, можно обратиться к полному руководству Gemini.

Эта статья Google представила Gemini Robotics ER 1.6: SOTA-модель роботов, сильна в визуальном и пространственном рассуждении впервые появилась на ABMedia News Network.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

NEC 株式会社 станет первым в Японии глобальным партнером Anthropic

NEC объявила о том, что станет первым в Японии глобальным партнером Anthropic; обе стороны будут разрабатывать безопасные и учитывающие отраслевую экспертизу решения на базе ИИ для высокорегулируемых отраслей, таких как финансы, производство и местные органы власти, а также интегрируют серию Claude в NEC BluStellar, делая акцент на управлении, ориентированном на данные, и трансформации клиентского опыта. При этом будут внедрены Claude Cowork и интеграция с SOC, чтобы повысить уровень защиты кибербезопасности. Чтобы подтвердить эффективность, NEC запустила программу для «нулевого клиента» (Zero Customer) для проведения всеобъемлющих внутренних испытаний ИИ-агентов, и планирует в дальнейшем продвигать развертывание Claude по всему миру, создавая крупнейший в Японии масштабный Центр передового опыта (CoE) для AI-native-инженеров.

ChainNewsAbmedia1ч назад

Утечка в системе безопасности Vercel расширилась до сотен пользователей; разработчики ИИ находятся в группе повышенного риска

Сообщение Gate News, 23 апреля — Vercel сообщила 19 апреля, что ее инцидент в области безопасности, первоначально описанный как затрагивающий «ограниченное подмножество клиентов», расширился и теперь затрагивает гораздо более широкое сообщество разработчиков, особенно тех, кто создает рабочие процессы для ИИ-агентов. Атака может затронуть сотни пользователей

GateNews2ч назад

OpenAI 推出 GPT-5.5:12M контекст, AA-индекс на первом месте, Terminal-Bench 82,7% переписывает эталон для агентов

OpenAI опубликовала GPT-5.5, с акцентом на агентную работу и обработку корпоративных знаний, и одновременно запустила его в ChatGPT и Codex. Ключевые моменты включают контекстное окно 12 000 000 token, AA Intelligence Index 60, опережение Claude Opus на 4.7 и Gemini на 3.1 Pro; цена — 5 долларов за 1 млн token на вход и 30 долларов за 1 млн token на выход, количество выходных token снижено примерно на 40%, а фактическая стоимость выросла примерно на 20%.

ChainNewsAbmedia3ч назад

Cluster Protocol привлек $5M для ускорения CodeXero, браузерной нативной AI IDE для EVM

Сообщение Gate News, 23 апреля — Cluster Protocol, компания в сфере AI deeptech и инфраструктуры Web3, объявила о привлечении $5 миллиона в новом раунде финансирования под руководством DAO5 при участии Paper Ventures, JPEG Trading и Mapleblock Capital. Общий объем привлеченного финансирования составил $7,75 миллиона. Капитал wi

GateNews3ч назад

Nvidia расширяет ИИ-партнерства в Великобритании, Китае и в автомобильном секторе на фоне проблем в цепочках поставок

Сообщение Gate News, 23 апреля — Несмотря на конкуренцию со стороны Google и сбои в цепочках поставок, Nvidia по-прежнему остается доминирующим игроком на рынке ИИ-оборудования. В четверг TD Cowen вновь подтвердила рекомендацию «покупать» акции Nvidia, указав на лидерство компании в производительности и широте программной экосистемы. Поддержка

GateNews3ч назад

Anthropic раскрывает, что в Code произошла каскадная комбинация из 3 багов: деградация рассуждений, забывание кэша, обратное действие 25-символьной команды

Anthropic опубликовала о трех сбоях с наложением: в период 3/4–4/7 уровень рассуждений снизили до medium, из-за чего ответы стали с задержками и ощущались менее умными; в период 3/26–4/10 ошибка очистки кэша вызывала забывчивость в долгих сессиях; 4/16–4/20 добавили команду для вызова инструментов «в пределах 25 символов», а затем откатили после 4/20. Пострадали Claude Code, Agent SDK, Cowork; модели — Sonnet 4.6, Opus 4.6/4.7; API не затронут. 4/23 сбросили лимиты и усилили оценку и регрессионное тестирование.

ChainNewsAbmedia5ч назад
комментарий
0/400
Нет комментариев