Усиленное обучение встречается с Web3: от реконструкции производственных отношений ИИ

在算力与激励的双重驱动下,强化学习正在重塑去中心化AI训练的底层逻辑。当这套「后训练」技术与区块链的经济激励机制相遇,一场关于「智能如何被生产、对齐并分配价值」的范式级变革正在酝酿。

Почему усиленное обучение внезапно стало новым фаворитом AI?

В прошлом году появление DeepSeek-R1 вновь привлекло внимание к давно игнорируемому технологическому пути — усиленному обучению (RL). До этого в индустрии считалось, что усиленное обучение — это лишь инструмент для выравнивания ценностей, больше применяемый для тонкой настройки поведения моделей. Но сейчас оно превращается в ключевой технологический путь системного повышения способностей AI к рассуждению.

С точки зрения технологического этапа, обучение современных LLM делится на три стадии, каждая из которых играет разную роль в развитии AI:

Предобучение — основа, формирующая «мировоззрение» модели через самосупервизированное обучение на триллионах текстов. Этот этап самый затратный (80–95% стоимости), требует тысяч H100 для одновременного обучения и возможен только в сильно централизованных условиях — это прерогатива технологических гигантов.

Инструктивная донастройка (SFT) — промежуточный уровень, внедряющий способность выполнять задачи. Стоимость относительно низкая (5–15%), но требует градиентной синхронизации, что ограничивает потенциал децентрализации.

Постобучение — переменная стадия. Включает RLHF, RLAIF, GRPO и другие процессы усиленного обучения, занимает всего 5–10%, но системно улучшает качество рассуждений. Более того, оно по своей природе поддерживает асинхронное распределённое выполнение — узлы не обязаны держать полные веса модели, теоретически могут динамически присоединяться или уходить. Именно это и есть то, что нужно Web3.

Трехуровневая структура сотрудничества усиленного обучения

Чтобы понять, почему усиленное обучение подходит для децентрализации, нужно разобраться в его технологической сути.

Полная система усиленного обучения состоит из трёх ролей, взаимодействие которых определяет, сможет ли система работать в открытой сети:

Исполнитель (Actor/Rollout Workers) — отвечает за рассуждение модели и генерацию данных. Выполняет задачи по текущей стратегии, создавая множество траекторий состояние-действие-награда. Процесс высоко параллелен, коммуникации между узлами минимальны, не чувствителен к аппаратным различиям. Иными словами, один потребительский GPU и один корпоративный ускоритель могут работать одновременно, не мешая друг другу.

Оценщик (Evaluators) — оценивает сгенерированные траектории. Использует замороженные модели наград или правила для оценки каждой траектории. Если результат задачи проверяем (например, есть стандартный ответ по математике), оценка может быть полностью автоматической.

Обучающий (Learner/Trainer) — собирает все траектории, выполняет градиентные обновления, оптимизирует параметры стратегии. Это единственный этап, требующий высокой пропускной способности и синхронизации, обычно остаётся централизованным для обеспечения стабильности сходимости.

Эта треугольная структура хороша тем, что: генерация траекторий может быть бесконечно параллельной, оценка — распределённой, а обновление параметров — требует лишь частичной синхронизации. Такой гибкости не даёт традиционное предобучение.

Эволюция постобучения: от RLHF к RLAIF и GRPO

Само постобучение быстро развивается, и все итерации движутся в одном направлении — становиться дешевле, масштабируемее и более подходящим для децентрализации:

RLHF — первоначальный подход, основанный на предпочтениях человека, обучении модели наград и оптимизации стратегии через PPO. Высокая стоимость, медленная скорость, сложность масштабирования.

RLAIF — заменяет человеческий аннотатор AI-судьёй, автоматизируя генерацию предпочтений. OpenAI, Anthropic, DeepSeek переходят к этому, поскольку оно снижает затраты и позволяет быстро итерации. Но у RLAIF есть ограничения — награды могут быть «игровыми».

PRM (процессная модель наград) — оценивает не только финальный ответ, но и каждый шаг рассуждения. Это ключ к реализации «медленного мышления» в DeepSeek-R1 и OpenAI o1. По сути, это обучение модели «думать», а не просто «правильности».

GRPO — новейший оптимизатор DeepSeek, по сравнению с PPO не требует Critic (экономия ресурсов), использует групповые преимущества для повышения стабильности. В многозадачных задержках и асинхронных средах работает ещё стабильнее.

Общая черта этой технологической линии — снижение стоимости и рост масштабируемости с каждым поколением.

Почему Web3 и усиленное обучение — естественная пара?

На первый взгляд, Web3 — это блокчейн + экономические стимулы, а усиленное обучение — алгоритмы оптимизации AI, казалось бы, не связаны. Но в глубине оба — системы, управляемые «стимулом»:

  • усиленное обучение использует сигналы наград для оптимизации стратегии
  • блокчейн — координирует участников через экономические стимулы

Эта тождественность делает основные потребности усиленного обучения — масштабные разнородные выборки, распределение наград, проверка результатов — — именно теми преимуществами структуры Web3.

Первое совпадение: разделение генерации данных и обновления модели

Усиленное обучение по своей природе делится на два этапа: Rollout (генерация данных) и Update (обновление весов). Rollout — слабо связанный, полностью параллельный, идеально подходит для глобальной сети потребительских GPU; Update — требует высокой пропускной способности и централизованных узлов. Эта архитектура «асинхронного выполнения, лёгкой синхронизации» — стандарт для децентрализованных сетей.

Второе совпадение: проверяемость

В открытых сетях невозможно полагаться на честность участников, нужно использовать криптографию или логические проверки. К счастью, многие результаты усиленного обучения — проверяемы: может ли код скомпилироваться, правильный ли ответ по математике, кто выиграл в партии. Это делает возможным «Proof-of-Learning» — проверку, действительно ли узлы выполняли рассуждение, а не просто подделывали.

Третье совпадение: программируемость стимулов

Токеновые механизмы Web3 позволяют напрямую вознаграждать создателей предпочтений, участников Rollout и проверяющих. Механизмы залога и штрафов (Staking/Slashing) дополнительно ограничивают честность участников. Это гораздо прозрачнее и дешевле, чем традиционные краудсорсинговые схемы с фиксированными выплатами.

Шесть ключевых проектов децентрализованного усиленного обучения

На текущей стадии экосистемы несколько команд экспериментируют на этом пересечении. Их подходы разные, но базовая логика удивительно схожа.

Prime Intellect: асинхронное распределённое доказательство

Prime Intellect ставит цель создать глобальный открытый рынок вычислительных ресурсов, его ядро — prime-rl — движок усиленного обучения, специально разработанный для масштабных асинхронных децентрализованных сред.

Традиционный PPO требует синхронности всех узлов, любой медленный узел тормозит всё. prime-rl полностью разрушает этот барьер: исполнители (Actor) и обучающие (Learner) полностью разъединены, исполнители могут присоединяться и уходить в любой момент, не ожидая всей партии.

Технически, prime-rl интегрирует высокопроизводительный движок inference vLLM, разбиение параметров FSDP2 и MoE для разреженного активирования. Это позволяет обучать модели сотен миллиардов на гетерогенных GPU-кластерах.

Модели серии INTELLECT от Prime Intellect подтверждают работоспособность этой системы: INTELLECT-1 (10B) достигает 98% использования ресурсов в межконтинентальной сети, коммуникационные издержки — менее 2%; INTELLECT-2 (32B) впервые демонстрирует возможность Permissionless RL; INTELLECT-3 (106B MoE) обучена на потребительских GPU, достигнув уровня флагманских моделей (точность AIME 90.8%, GPQA 74.4%).

Эти итерации показывают: децентрализованное усиленное обучение переходит от концепции к реальности.

Gensyn: RL Swarm и SAPO

Идеология Gensyn более радикальна — речь не только о распределении вычислений, а о распределении всего процесса обучения.

Ключевое новшество — RL Swarm и SAPO (Swarm Sampling Policy Optimization). RL Swarm превращает усиленное обучение в P2P-цикл «генерация — оценка — обновление»:

  • Solvers создают траектории рассуждения
  • Proposers динамически формируют задачи
  • Evaluators выставляют оценки

Эти компоненты не требуют централизованной координации, образуя самодостаточную систему обучения. SAPO — алгоритм, адаптированный к полностью асинхронной среде: он не делится градиентами, а только траекториями, что минимизирует коммуникационные издержки.

Философия Gensyn — настоящая масштабируемость усиленного обучения — в большом разнообразии и объёме Rollout-исследований. Почему бы не полностью распределить эту часть?

Nous Research: замкнутая система с проверяемыми наградами

Nous Research создали более полную экосистему, включающую модели Hermes, среду проверки Atropos, оптимизацию распределённого обучения DisTrO и децентрализованную GPU-сеть Psyche.

Особенно инновационна Atropos — это не только среда усиленного обучения, но и «слой проверяемых наград». Для задач с проверяемыми результатами (математика, код) она напрямую проверяет правильность и генерирует детерминированные награды. Для нерешаемых задач — предоставляет стандартный интерфейс RL.

В децентрализованной сети Psyche Atropos выступает в роли «судьи», проверяющего, действительно ли майнеры улучшили стратегию. Это решает главный вопрос доверия в распределённом RL.

В системе Nous усиленное обучение — не отдельная стадия, а протокол, связывающий данные, среду, модель и инфраструктуру. Hermes развивается в «живую систему, способную постоянно самоулучшаться на открытых вычислительных сетях».

Gradient Network: Echo и двойная группа

Echo — это архитектура с двумя группами: «группа рассуждений» и «группа обучения», каждая работает независимо. Группа рассуждений — из потребительских GPU и устройств на периферии, фокусируется на высокой пропускной способности траекторий; группа обучения — занимается градиентами и синхронизацией параметров.

Echo предлагает два режима синхронизации: последовательный — обеспечивает свежесть траекторий, но может тратить ресурсы; асинхронный — максимизирует использование устройств, допускает задержки. Эта гибкость позволяет адаптироваться к разным условиям сети.

Весь стек Gradient объединяет распределённое рассуждение (Parallax), обучение RL (Echo), P2P-сеть (Lattica), проверку (VeriLLM) — это, возможно, самый полный «протокол открытого интеллекта».

Экосистема Bittensor и подсеть Grail

Bittensor через уникальный механизм Yuma создает огромную, разреженную, нестационарную сеть наград. Covenant AI построила на этой базе полный pipeline от предобучения до RL-постобучения.

Grail — это «проверяемый слой рассуждений» для RL-постобучения. Его инновация — криптографическое доказательство подлинности каждого Rollout:

  1. Использование drand для генерации случайных вызовов (SAT, GSM8K и др.), исключая предвычисленное мошенничество
  2. Применение PRF и sketch commitments для низкозатратной выборочной проверки
  3. Связывание выводов с отпечатками модели, чтобы любые подмены сразу обнаруживались

Эксперименты показывают, что Grail повышает точность Qwen2.5-1.5B на MATH с 12.7% до 47.6%, предотвращая мошенничество и усиливая модель.

Fraction AI: конкуренция как драйвер усиленного обучения

Если первые проекты сосредоточены на «распределении обучения», то Fraction AI — на «использовании конкуренции для обучения».

Он заменяет статические награды RLHF динамической конкуренцией: агенты в разных задачах соревнуются, их рейтинг и оценки AI-судей формируют текущие награды. В результате выстраивается непрерывная многопользовательская игра.

Архитектура включает четыре модуля: лёгкие агенты (на базе QLoRA), изолированные области задач (Spaces), децентрализованных судей AI и слой Proof-of-Learning.

Главная идея — «эволюционный движок человек-машина»: пользователь через промпты задаёт направление, агенты в микросоревнованиях автоматически генерируют множество предпочтительных данных. В этой модели аннотирование превращается из трудозатратной работы в бизнес-цикл с микрообучением и децентрализацией.

Таблица сравнения шести проектов

Вариант Prime Intellect Gensyn Nous Research Gradient Grail Fraction AI
Основной фреймворк prime-rl RL Swarm + SAPO DisTrO + Psyche Echo криптографическая проверка RLFC конкуренция
Коммуникационные издержки очень низкие (оптимизация пропускной способности) очень низкие очень низкие средние очень низкие низкие (асинхронная конкуренция)
Проверяемость TopLoc отпечатки PoL + Verde Atropos награды VeriLLM криптографические вызовы рейтинг по конкуренции
Стимулы по вкладу токены залог и штрафы токены сети TAO-распределение входные взносы в Spaces
Максимальные параметры 106B (MoE) 100B+ 70B+ TBD 1.5B (эксперимент) микронастройка LLM
Уровень зрелости высокий (уже в мейннете) средний (в тесте) средний (в разработке) средний (в разработке) низкий (ещё не в мейннете) низкий (ранний этап)

Три ключевых преимущества синергии усиленного обучения и Web3

Несмотря на разные подходы, при объединении усилинного обучения и Web3 их базовая архитектура сходится к единому высоко согласованному шаблону: разъединение — проверка — стимулы.

Первое: физическое разделение генерации и обучения

Связь между узлами минимальна, генерация траекторий — на глобальной сети потребительских GPU, обновление — в небольшом числе узлов с высокой пропускной способностью. Эта архитектура — стандарт для децентрализованных систем: Prime Intellect с асинхронными Actor-Learner, Gradient с двойной группой, Gensyn с полностью распределённым Swarm.

Второе: проверяемость как инфраструктура

В открытых сетях невозможно полагаться на честность участников, нужно криптографически или логически подтверждать. Проекты используют PoL, TopLoc, Atropos, криптографические вызовы — все решают одну задачу: как обеспечить доверие между незнакомыми узлами. Эти слои проверки со временем станут базой «доверенной вычислительной инфраструктуры».

Третье: токенизация стимулов как естественный выбор

Всё — от предоставления вычислений и генерации данных до верификации и распределения наград — образует замкнутый цикл. Токены стимулируют участие, штрафы — исключают мошенничество. В открытых сетях это обеспечивает стабильность и масштабируемость лучше, чем традиционный краудсорсинг с фиксированными выплатами.

Три главных вызова

За красивыми перспективами скрываются серьёзные проблемы. Путь усиленного обучения в Web3 ещё не проложен без препятствий:

Первое: пропускная способность

Несмотря на инновации вроде DisTrO, физические задержки всё ещё ограничивают обучение моделей с более чем 70B параметров. Сейчас Web3 AI в основном — это донастройка и рассуждение, а не полноценное централизованное обучение.

Второе: уязвимость наградных функций

Это проявление закона Гудхарта: в сильно стимулируемой сети майнеры могут «подгонять» награды под свои цели, «играя» систему. Модель вроде бы улучшается, а на деле — просто «подгоняет» оценки. Создание устойчивых, трудноиграбельных наград — вечная борьба.

Третье: атаки с вредоносными узлами

Злой узел может манипулировать сигналами обучения, чтобы разрушить сходимость всей системы. Это не решается только улучшением наградных функций — нужны механизмы противодействия.

Три возможных сценария развития

Несмотря на сложности, направление развития усиленного обучения в Web3 становится ясным. В будущем можно выделить три взаимодополняющих пути:

Путь 1: иерархическая эволюция децентрализованных сетей обучения

От простых майнеров к кластеризованным подсетям RL. В краткосрочной перспективе — рынок проверяемых рассуждений (код, математика), в среднесрочной — многошаговые рассуждения и стратегия, в долгосрочной — полноценная инфраструктура «от рассуждения до обучения и выравнивания». Prime Intellect и Gensyn движутся в этом направлении.

Путь 2: активизация предпочтений и наград как активов

От низкосортных «меток» к «долевому участию» в данных. Создание на базе моделей наград и их управления — это уже активы, которыми можно управлять и торговать. Fraction AI в некоторой степени движется в этом направлении — участники не просто метят, а участвуют в постоянных «играх» и делят выгоды.

Путь 3: вертикальные «маленькие и красивые» AI-агенты

В узкоспециализированных задачах с проверяемыми результатами — DeFi-стратегии, аудит кода, математические доказательства. В этих сферах стратегия и ценность связаны напрямую, и такие агенты могут превзойти универсальные модели.

Конечное видение

Истинная возможность усиленного обучения в Web3 — не просто создать децентрализованный аналог OpenAI или DeepSeek, а кардинально переопределить «как создаётся, выравнивается и распределяется ценность» в AI.

В централизованной модели AI — это прерогатива гигантов, выравнивание — «черный ящик», а ценность — платформа. В Web3 — обучение становится открытым рынком ресурсов, награды и предпочтения — управляемыми активами, а доходы от интеллекта перераспределяются между участниками.

Это не только технологическая задача, но и переформатирование власти: «кто определяет ценности AI», «кто извлекает выгоду из прогресса». Когда эта революция завершится, мы, возможно, удивимся, что соединение усиленного обучения и Web3 не только меняет производство AI, но и трансформирует его социальную природу.

PRIME-3,11%
BZZ-1,81%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить