Zhiyuan GE-Sim 2.0: Используя World Model для создания мира, конкурент Yushu продвигает человекоподобных роботов к самосовершенствованию

Воплощённый интеллект (Embodied AI) сейчас переживает ключевой переломный момент. В последнее время китайская компания Zhirun Robotics выпустила Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), пытаясь продвинуть World Model (модель мира) из инструмента, просто понимающего среду, в симулятор мира (World Simulator), который может напрямую запускать, обучать и оптимизировать роботов.

Если вы пока не понимаете, насколько это важно, сначала взгляните на фундаментальные недостатки архитектуры LLM: с точки зрения обучения существующие LLM просто предсказывают контекст по большим массивам данных; они могут знать, что эти слова «яблоко упало» часто встречаются вместе, но не понимают причинно-следственные связи гравитации или физического мира по-настоящему.

Именно поэтому такие учёные, как Ян Лекун и Ли Фэй-Лэй, вкладываются в направление World Model: когда у ИИ появятся способности понимать 3D-среду и делать физические прогнозы, эта технология станет цифровым «мозгом» для автономных роботов, беспилотного вождения и интеллектуального производства — так называемого «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня в игру вошли производители гуманоидных роботов в масштабе «роста человека», в лице Zhirun Robotics, что символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель совета директоров TSMC Вэй Чжэцзя говорил: если смотреть на материковый Китай, там постоянно «делают роботов, которые прыгают туда-сюда». Это не имеет смысла — просто красиво. Он указал, что ключ в том, чтобы мозг робота мог работать, и чей это мозг: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% «мозга» производит TSMC. Боттлнек в развитии GE-Sim 2.0 всё ещё сохраняется и тесно связан с развитием моделей в Китае.

В дорожной карте World Model утверждается, что робот — ключ

Нынешние основные LLM опираются на огромные массивы данных и статистические взаимосвязи, чтобы понимать контекст, и предсказывать следующее слово. Она может знать, что слова «яблоко упало» часто встречаются вместе, но не понимает причинно-следственные связи гравитации или физического мира по-настоящему.

Такая схема отлично работает в задачах генерации текста, программной поддержки или вопрос-ответ, но в сценариях, где нужно понимать структуру реального мира, рассуждать о причинно-следственных связях и строить долгосрочные планы, остаются фундаментальные ограничения. Большее же проблема в том, что источники данных постепенно иссякают. Обучение LLM очень зависит от высококачественных человеческих данных, а в последние годы индустрия начала предупреждать, что доступные человеческие текстовые данные могут быть исчерпаны в ближайшие несколько лет. Тогда это будет как при близкородственном скрещивании: наследственные дефекты в конечном итоге приведут к тому, что модель всё больше отдалится от реальности и начнёт деградировать по производительности.

(Глубокий разбор: у LLM есть недостатки? Почему Ян Лекун делает ставку на AMI по направлению World Model)

Вот почему в последние годы два тяжеловеса в научном сообществе ИИ — Ян Лекун и Ли Фэй-Лэй (Fei-Fei Li), которую называют «крёстной матерью ИИ», — выбрали ставку на новое поколение AI-архитектуры, известной как World Model (модель мира).

Тогда автор писал: если посмотреть дальше, после того как у ИИ появятся способности понимать 3D-среду и делать физические предсказания, эта технология станет цифровым мозгом для автономных роботов, беспилотного вождения и интеллектуального производства — «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня, когда производитель гуманоидных роботов Zhirun Robotics выходит на сцену, это символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель TSMC Вэй Чжэцзя, говоря о развитии роботов и полупроводников, прямо заявил: если смотреть на материковый Китай, там роботы «прыгают туда-сюда, подпрыгивают». Это не нужно — просто «витрина». Он указал, что ключ в том, чтобы мозг робота мог работать, а мозг делает: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% мозга производится TSMC.

(Вэй Чжэцзя (TSMC) язвит: китайские роботы прыгают туда-сюда — это просто «витрина», толку нет! Ключ всё равно в Nvidia)

Эволюция World Model: от понимания мира к обучению в мире

В последние несколько лет World Model постоянно рассматривали как ключевую технологию для ИИ, чтобы понимать реальность. За счёт изображений, языка и данных сенсоров модель может предсказывать изменения в среде, давая роботам базовые способности к принятию решений.

Но главной прорывной особенностью GE-Sim 2.0 является то, что это не просто понимание мира: система обучения и действий встроена прямо в «мир, сгенерированный моделью». Переменная для Action (действия) включается в основу, а переход происходит от традиционного прогнозирования состояния к полноценному циклу:

State

Action

State Evolution

Это означает, что робот больше не просто наблюдает и реагирует, а может активно пробовать в симуляционной среде, автономно оптимизировать и постоянно обучаться. Этот сдвиг переводит World Model от «когнитивной модели» к «инфраструктуре для обучения».

GE-Sim 2.0: «эволюция» роботов в виртуальном мире

GE-Sim 2.0 определяется как набор «симуляторов воплощённого мира». Основная цель — решить три ключевых узких места реального обучения: слишком высокая стоимость, недостаток данных и сложность масштабирования. За счёт генерации среды моделью система может массово обучать роботов без зависимости от реального мира.

Технически GE-Sim 2.0 интегрирует три ключевые способности. Во-первых, это «движение-ориентированная генерация видео»: модель может генерировать соответствующие будущие изображения в зависимости от действий робота, сохраняя согласованность по нескольким ракурсам, включая ракурс головы и ракурсы управления левыми и правыми руками.

Во-вторых, это моделирование проприоцепции (proprioception): она не только имитирует внешние видеокадры, но и может предсказывать собственные состояния суставов и действий робота, делая принятие решений ближе к реальному физическому миру.

В-третьих, это «автоматическая оценка задач»: с помощью встроенной reward model (модели вознаграждения) система может автоматически определять, выполнена ли задача. Например, «поместить синий объект в красный ящик», и выдавать обратную связь, которая напрямую используется для обучения с подкреплением. Это позволяет роботу завершать полный замкнутый цикл в симуляционной среде:

GE-Sim 2.0 уже умеет обеспечивать «минутную» стабильную генерацию видео

По сравнению с ранними моделями, которые могли генерировать лишь короткие фрагменты, GE-Sim 2.0 уже может обеспечивать «минутную» стабильную генерацию видео и поддерживать симуляцию задач на протяжении длительного времени. При этом за счёт обучения на масштабных реальных данных (данных дистанционного управления, развертывания и взаимодействия) модель демонстрирует более сильные возможности обобщения между разными сценами и задачами. Это особенно важно для гуманоидных роботов: потому что операции в реальном мире сильно различаются, и нельзя полагаться только на обучение в фиксированных сценах.

Появление World Simulator означает, что роботы могут «бесконечно тренироваться» в виртуальном мире. Это приведёт к двум структурным изменениям: первое — стоимость обучения существенно снизится. Второе — скорость итерации возможностей вырастет на порядки по экспоненте.

Zhirun Robotics: новая сила китайских гуманоидных роботов

Zhirun Robotics была основана в 2023 году Пэн Чжи-хуэй (одним из «гениев» Huawei), который учредил компанию. Она фокусируется на области воплощённого интеллекта, где объединяются AI и робототехника.

Ключевые продукты компании включают:

гуманоидных роботов серии «Юаньчжэн» (远征)

роботизированную систему «Линси» (灵犀)

универсальную крупномасштабную модель GO-1

На данный момент компания завершила несколько раундов финансирования и получила инвестиции от таких организаций, как Sequoia China и Hillhouse Capital, и рассматривается как важный игрок в сфере китайских гуманоидных роботов, образуя конкурентную конфигурацию вместе с компанией Unitree Robotics.

Эта статья Zhirun Robotics GE-Sim 2.0: с помощью World Model генерируют мир, соперник Unitree в лице стремительных гуманоидных роботов продвигает их к самосовершенствованию впервые появилась в Lianxin ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Robinhood инвестирует $75M в OpenAI через новый фонд венчурных инвестиций

Robinhood, американская торговая платформа, объявила 22 апреля, что ее венчурный фонд инвестировал $75 миллионов в OpenAI, поскольку компания стремится предоставить розничным инвесторам доступ к частным технологическим компаниям, сообщает Reuters. Инвестиции пришлись на период, когда OpenAI привлекла сильный интерес инвесторов на фоне всплеска со стороны

CryptoFrontier18м назад

Google Cloud инвестирует $750M в продвижение консалтинга по ИИ с McKinsey, Accenture и Deloitte

Сообщение Gate News, 23 апреля — Google Cloud инвестирует US$750 миллион, чтобы помочь крупным консалтинговым компаниям, включая McKinsey, Accenture и Deloitte, создавать и продавать корпоративные проекты на базе ИИ, которые работают на Gemini, при поддержке инженеров Google. DeepMind предоставит отобранным партнёрам ранний доступ к моделям Gemini в обмен на обратную связь до официального запуска

GateNews40м назад

OpenAI назначает бывшего руководителя Airbnb Эммануэля Марийя для руководства расширением в регионе EMEA

OpenAI нанимает Эммануэля Марийя на должность управляющего директора для региона EMEA, чтобы активизировать расширение на фоне опасений по поводу суверенитета и конкуренции со стороны Mistral AI; подписки в EMEA растут. Аннотация: OpenAI называет Эммануэля Марийя управляющим директором для Европы, Ближнего Востока и Африки, чтобы ускорить расширение на фоне опасений по поводу суверенитета и повышенного внимания со стороны ЕС. Этот шаг следует за ростом подписок в EMEA и нацелен на формирование более сильного локального присутствия по сравнению с конкурентами, такими как Mistral AI.

GateNews1ч назад

Thinking Machines Lab заключает многомиллиардный контракт на облачные услуги с Google

Сообщение Gate News, 23 апреля — Thinking Machines Lab, стартап в области ИИ, основанный бывшим руководителем OpenAI Мирой Мурати, подписал соглашение о сделке по облачной инфраструктуре с Google Cloud на сумму в однозначное число миллиардов долларов США. Соглашение знаменует собой первую для компании партнерскую сделку с крупным облачным провайдером

GateNews1ч назад

Операционная прибыль SK Hynix взлетает на 406% в 1-м квартале до рекордного уровня на фоне спроса на AI-чипы

SK Hynix публикует операционную прибыль за 1-й квартал в размере 37,6 трлн вон и выручку 52,6 трлн вон, рост резко обусловлен спросом на DRAM и NAND со стороны AI и переходом к обработке вывода в реальном времени.

GateNews2ч назад

OpenAI достигает $1 -триллионной оценки перед IPO на фоне гонки со SpaceX и Anthropic

OpenAI приближается к $1T -триллионной подразумеваемой до-IPO-оценке через ончейн-ставки; SpaceX и Anthropic нацеливаются на схожие оценки, поскольку расходы на ИИ-инфраструктуру растут, что стимулирует выручку от подписок, тогда как у Anthropic возникла путаница с ценообразованием.

GateNews3ч назад
комментарий
0/400
Нет комментариев