Google DeepMind представила совершенно новую базовую модель для роботов Gemini Robotics ER 1.6, где ER означает Embodied Reasoning (воплощённое рассуждение). Эта модель достигла текущего наилучшего уровня (SOTA) в задачах визуального и пространственного рассуждения и уже доступна через Gemini API. Руководитель по работе с разработчиками в Google AI Логан Килпатрик (Logan Kilpatrick) сообщил об этом в социальных сетях. (Источник)
Что такое Embodied Reasoning?
Embodied Reasoning — это способность ИИ понимать и рассуждать о физическом мире. В отличие от традиционных языковых моделей, воплощённые модели рассуждения должны обрабатывать положения, формы, материалы и физические связи взаимодействия объектов в трёхмерном пространстве. Gemini Robotics ER 1.6 специально оптимизирована для таких задач, чтобы робот мог точнее понимать окружающую среду и принимать решения о соответствующих действиях.
Ключевые возможности
Основные преимущества Gemini Robotics ER 1.6 сосредоточены в двух направлениях:
Возможность Описание Визуальное рассуждение Способность распознавать объекты по изображениям и видео, понимать структуру сцены и на их основе принимать решения Пространственное рассуждение Понимание относительного положения, расстояния и направления объектов в трёхмерном пространстве, поддержка сложного планирования операций
Сочетание этих двух возможностей позволяет роботам справляться с более сложными задачами в реальном мире. Например, в складской среде роботу нужно одновременно распознавать предметы разных форм и рассчитывать оптимальный угол захвата и место размещения — именно в таких сценах Gemini Robotics ER 1.6 особенно сильна.
Использование через Gemini API
В отличие от многих прошлых робототехнических моделей, которые оставались лишь на уровне научных работ, Gemini Robotics ER 1.6 уже предоставляет доступ через Gemini API. Это означает, что разработчики и производители оборудования могут напрямую интегрировать эту модель в свои собственные роботизированные системы, не обучая модель с нуля.
Открытие API также снижает порог разработки робототехнического ИИ. Раньше создание роботизированной системы с возможностями визуального и пространственного рассуждения требовало большого объёма сбора данных и работ по обучению моделей. Теперь разработчики могут сосредоточиться на разработке аппаратного дизайна и сценариев применения, а вычислительные возможности нижнего уровня отдать на обработку Gemini Robotics ER 1.6.
Робототехническая стратегия Google
Gemini Robotics ER 1.6 — это последняя разработка Google DeepMind в сфере робототехники. От ранних RT-2 до нынешней серии Gemini Robotics Google продолжает расширять возможности больших языковых моделей на взаимодействие с физическим миром. Версия ER 1.6 на основе предшественников ещё больше улучшает точность рассуждений, особенно демонстрируя более высокие результаты в сценариях, где требуется точная работа.
По мере того как робототехническая индустрия входит в новый этап роста, базовые модели с мощными возможностями визуального и пространственного рассуждения станут ключевой инфраструктурой. Чтобы узнать больше о развитии экосистемы Gemini, можно обратиться к полному руководству Gemini.
Эта статья Google представила Gemini Robotics ER 1.6: SOTA-модель роботов, сильна в визуальном и пространственном рассуждении впервые появилась на ABMedia News Network.
Связанные статьи
NEC 株式会社 станет первым в Японии глобальным партнером Anthropic
Утечка в системе безопасности Vercel расширилась до сотен пользователей; разработчики ИИ находятся в группе повышенного риска
OpenAI 推出 GPT-5.5:12M контекст, AA-индекс на первом месте, Terminal-Bench 82,7% переписывает эталон для агентов
Cluster Protocol привлек $5M для ускорения CodeXero, браузерной нативной AI IDE для EVM
Nvidia расширяет ИИ-партнерства в Великобритании, Китае и в автомобильном секторе на фоне проблем в цепочках поставок
Anthropic раскрывает, что в Code произошла каскадная комбинация из 3 багов: деградация рассуждений, забывание кэша, обратное действие 25-символьной команды