Усиленное обучение встречается с Web3: от реконструкции производственных отношений ИИ

2026-01-19 09:47:24

在算力与激励的双重驱动下，强化学习正在重塑去中心化AI训练的底层逻辑。当这套「后训练」技术与区块链的经济激励机制相遇，一场关于「智能如何被生产、对齐并分配价值」的范式级变革正在酝酿。

Почему усиленное обучение внезапно стало новым фаворитом AI?

В прошлом году появление DeepSeek-R1 вновь привлекло внимание к давно игнорируемому технологическому пути — усиленному обучению (RL). До этого в индустрии считалось, что усиленное обучение — это лишь инструмент для выравнивания ценностей, больше применяемый для тонкой настройки поведения моделей. Но сейчас оно превращается в ключевой технологический путь системного повышения способностей AI к рассуждению.

С точки зрения технологического этапа, обучение современных LLM делится на три стадии, каждая из которых играет разную роль в развитии AI:

Предобучение — основа, формирующая «мировоззрение» модели через самосупервизированное обучение на триллионах текстов. Этот этап самый затратный (80–95% стоимости), требует тысяч H100 для одновременного обучения и возможен только в сильно централизованных условиях — это прерогатива технологических гигантов.

Инструктивная донастройка (SFT) — промежуточный уровень, внедряющий способность выполнять задачи. Стоимость относительно низкая (5–15%), но требует градиентной синхронизации, что ограничивает потенциал децентрализации.

Постобучение — переменная стадия. Включает RLHF, RLAIF, GRPO и другие процессы усиленного обучения, занимает всего 5–10%, но системно улучшает качество рассуждений. Более того, оно по своей природе поддерживает асинхронное распределённое выполнение — узлы не обязаны держать полные веса модели, теоретически могут динамически присоединяться или уходить. Именно это и есть то, что нужно Web3.

Трехуровневая структура сотрудничества усиленного обучения

Чтобы понять, почему усиленное обучение подходит для децентрализации, нужно разобраться в его технологической сути.

Полная система усиленного обучения состоит из трёх ролей, взаимодействие которых определяет, сможет ли система работать в открытой сети:

Исполнитель (Actor/Rollout Workers) — отвечает за рассуждение модели и генерацию данных. Выполняет задачи по текущей стратегии, создавая множество траекторий состояние-действие-награда. Процесс высоко параллелен, коммуникации между узлами минимальны, не чувствителен к аппаратным различиям. Иными словами, один потребительский GPU и один корпоративный ускоритель могут работать одновременно, не мешая друг другу.

Оценщик (Evaluators) — оценивает сгенерированные траектории. Использует замороженные модели наград или правила для оценки каждой траектории. Если результат задачи проверяем (например, есть стандартный ответ по математике), оценка может быть полностью автоматической.

Обучающий (Learner/Trainer) — собирает все траектории, выполняет градиентные обновления, оптимизирует параметры стратегии. Это единственный этап, требующий высокой пропускной способности и синхронизации, обычно остаётся централизованным для обеспечения стабильности сходимости.

Эта треугольная структура хороша тем, что: генерация траекторий может быть бесконечно параллельной, оценка — распределённой, а обновление параметров — требует лишь частичной синхронизации. Такой гибкости не даёт традиционное предобучение.

Эволюция постобучения: от RLHF к RLAIF и GRPO

Само постобучение быстро развивается, и все итерации движутся в одном направлении — становиться дешевле, масштабируемее и более подходящим для децентрализации:

RLHF — первоначальный подход, основанный на предпочтениях человека, обучении модели наград и оптимизации стратегии через PPO. Высокая стоимость, медленная скорость, сложность масштабирования.

RLAIF — заменяет человеческий аннотатор AI-судьёй, автоматизируя генерацию предпочтений. OpenAI, Anthropic, DeepSeek переходят к этому, поскольку оно снижает затраты и позволяет быстро итерации. Но у RLAIF есть ограничения — награды могут быть «игровыми».

PRM (процессная модель наград) — оценивает не только финальный ответ, но и каждый шаг рассуждения. Это ключ к реализации «медленного мышления» в DeepSeek-R1 и OpenAI o1. По сути, это обучение модели «думать», а не просто «правильности».

GRPO — новейший оптимизатор DeepSeek, по сравнению с PPO не требует Critic (экономия ресурсов), использует групповые преимущества для повышения стабильности. В многозадачных задержках и асинхронных средах работает ещё стабильнее.

Общая черта этой технологической линии — снижение стоимости и рост масштабируемости с каждым поколением.

Почему Web3 и усиленное обучение — естественная пара?

На первый взгляд, Web3 — это блокчейн + экономические стимулы, а усиленное обучение — алгоритмы оптимизации AI, казалось бы, не связаны. Но в глубине оба — системы, управляемые «стимулом»:

усиленное обучение использует сигналы наград для оптимизации стратегии
блокчейн — координирует участников через экономические стимулы

Эта тождественность делает основные потребности усиленного обучения — масштабные разнородные выборки, распределение наград, проверка результатов — — именно теми преимуществами структуры Web3.

Первое совпадение: разделение генерации данных и обновления модели

Усиленное обучение по своей природе делится на два этапа: Rollout (генерация данных) и Update (обновление весов). Rollout — слабо связанный, полностью параллельный, идеально подходит для глобальной сети потребительских GPU; Update — требует высокой пропускной способности и централизованных узлов. Эта архитектура «асинхронного выполнения, лёгкой синхронизации» — стандарт для децентрализованных сетей.

Второе совпадение: проверяемость

В открытых сетях невозможно полагаться на честность участников, нужно использовать криптографию или логические проверки. К счастью, многие результаты усиленного обучения — проверяемы: может ли код скомпилироваться, правильный ли ответ по математике, кто выиграл в партии. Это делает возможным «Proof-of-Learning» — проверку, действительно ли узлы выполняли рассуждение, а не просто подделывали.

Третье совпадение: программируемость стимулов

Токеновые механизмы Web3 позволяют напрямую вознаграждать создателей предпочтений, участников Rollout и проверяющих. Механизмы залога и штрафов (Staking/Slashing) дополнительно ограничивают честность участников. Это гораздо прозрачнее и дешевле, чем традиционные краудсорсинговые схемы с фиксированными выплатами.

Шесть ключевых проектов децентрализованного усиленного обучения

На текущей стадии экосистемы несколько команд экспериментируют на этом пересечении. Их подходы разные, но базовая логика удивительно схожа.

Prime Intellect: асинхронное распределённое доказательство

Prime Intellect ставит цель создать глобальный открытый рынок вычислительных ресурсов, его ядро — prime-rl — движок усиленного обучения, специально разработанный для масштабных асинхронных децентрализованных сред.

Традиционный PPO требует синхронности всех узлов, любой медленный узел тормозит всё. prime-rl полностью разрушает этот барьер: исполнители (Actor) и обучающие (Learner) полностью разъединены, исполнители могут присоединяться и уходить в любой момент, не ожидая всей партии.

Технически, prime-rl интегрирует высокопроизводительный движок inference vLLM, разбиение параметров FSDP2 и MoE для разреженного активирования. Это позволяет обучать модели сотен миллиардов на гетерогенных GPU-кластерах.

Модели серии INTELLECT от Prime Intellect подтверждают работоспособность этой системы: INTELLECT-1 (10B) достигает 98% использования ресурсов в межконтинентальной сети, коммуникационные издержки — менее 2%; INTELLECT-2 (32B) впервые демонстрирует возможность Permissionless RL; INTELLECT-3 (106B MoE) обучена на потребительских GPU, достигнув уровня флагманских моделей (точность AIME 90.8%, GPQA 74.4%).

Эти итерации показывают: децентрализованное усиленное обучение переходит от концепции к реальности.

Gensyn: RL Swarm и SAPO

Идеология Gensyn более радикальна — речь не только о распределении вычислений, а о распределении всего процесса обучения.

Ключевое новшество — RL Swarm и SAPO (Swarm Sampling Policy Optimization). RL Swarm превращает усиленное обучение в P2P-цикл «генерация — оценка — обновление»:

Solvers создают траектории рассуждения
Proposers динамически формируют задачи
Evaluators выставляют оценки

Эти компоненты не требуют централизованной координации, образуя самодостаточную систему обучения. SAPO — алгоритм, адаптированный к полностью асинхронной среде: он не делится градиентами, а только траекториями, что минимизирует коммуникационные издержки.

Философия Gensyn — настоящая масштабируемость усиленного обучения — в большом разнообразии и объёме Rollout-исследований. Почему бы не полностью распределить эту часть?

Nous Research: замкнутая система с проверяемыми наградами

Nous Research создали более полную экосистему, включающую модели Hermes, среду проверки Atropos, оптимизацию распределённого обучения DisTrO и децентрализованную GPU-сеть Psyche.

Особенно инновационна Atropos — это не только среда усиленного обучения, но и «слой проверяемых наград». Для задач с проверяемыми результатами (математика, код) она напрямую проверяет правильность и генерирует детерминированные награды. Для нерешаемых задач — предоставляет стандартный интерфейс RL.

В децентрализованной сети Psyche Atropos выступает в роли «судьи», проверяющего, действительно ли майнеры улучшили стратегию. Это решает главный вопрос доверия в распределённом RL.

В системе Nous усиленное обучение — не отдельная стадия, а протокол, связывающий данные, среду, модель и инфраструктуру. Hermes развивается в «живую систему, способную постоянно самоулучшаться на открытых вычислительных сетях».

Gradient Network: Echo и двойная группа

Echo — это архитектура с двумя группами: «группа рассуждений» и «группа обучения», каждая работает независимо. Группа рассуждений — из потребительских GPU и устройств на периферии, фокусируется на высокой пропускной способности траекторий; группа обучения — занимается градиентами и синхронизацией параметров.

Echo предлагает два режима синхронизации: последовательный — обеспечивает свежесть траекторий, но может тратить ресурсы; асинхронный — максимизирует использование устройств, допускает задержки. Эта гибкость позволяет адаптироваться к разным условиям сети.

Весь стек Gradient объединяет распределённое рассуждение (Parallax), обучение RL (Echo), P2P-сеть (Lattica), проверку (VeriLLM) — это, возможно, самый полный «протокол открытого интеллекта».

Экосистема Bittensor и подсеть Grail

Bittensor через уникальный механизм Yuma создает огромную, разреженную, нестационарную сеть наград. Covenant AI построила на этой базе полный pipeline от предобучения до RL-постобучения.

Grail — это «проверяемый слой рассуждений» для RL-постобучения. Его инновация — криптографическое доказательство подлинности каждого Rollout:

Использование drand для генерации случайных вызовов (SAT, GSM8K и др.), исключая предвычисленное мошенничество
Применение PRF и sketch commitments для низкозатратной выборочной проверки
Связывание выводов с отпечатками модели, чтобы любые подмены сразу обнаруживались

Эксперименты показывают, что Grail повышает точность Qwen2.5-1.5B на MATH с 12.7% до 47.6%, предотвращая мошенничество и усиливая модель.

Fraction AI: конкуренция как драйвер усиленного обучения

Если первые проекты сосредоточены на «распределении обучения», то Fraction AI — на «использовании конкуренции для обучения».

Он заменяет статические награды RLHF динамической конкуренцией: агенты в разных задачах соревнуются, их рейтинг и оценки AI-судей формируют текущие награды. В результате выстраивается непрерывная многопользовательская игра.

Архитектура включает четыре модуля: лёгкие агенты (на базе QLoRA), изолированные области задач (Spaces), децентрализованных судей AI и слой Proof-of-Learning.

Главная идея — «эволюционный движок человек-машина»: пользователь через промпты задаёт направление, агенты в микросоревнованиях автоматически генерируют множество предпочтительных данных. В этой модели аннотирование превращается из трудозатратной работы в бизнес-цикл с микрообучением и децентрализацией.

Таблица сравнения шести проектов

Вариант	Prime Intellect	Gensyn	Nous Research	Gradient	Grail	Fraction AI
Основной фреймворк	prime-rl	RL Swarm + SAPO	DisTrO + Psyche	Echo	криптографическая проверка	RLFC конкуренция
Коммуникационные издержки	очень низкие (оптимизация пропускной способности)	очень низкие	очень низкие	средние	очень низкие	низкие (асинхронная конкуренция)
Проверяемость	TopLoc отпечатки	PoL + Verde	Atropos награды	VeriLLM	криптографические вызовы	рейтинг по конкуренции
Стимулы	по вкладу	токены	залог и штрафы	токены сети	TAO-распределение	входные взносы в Spaces
Максимальные параметры	106B (MoE)	100B+	70B+	TBD	1.5B (эксперимент)	микронастройка LLM
Уровень зрелости	высокий (уже в мейннете)	средний (в тесте)	средний (в разработке)	средний (в разработке)	низкий (ещё не в мейннете)	низкий (ранний этап)

Три ключевых преимущества синергии усиленного обучения и Web3

Несмотря на разные подходы, при объединении усилинного обучения и Web3 их базовая архитектура сходится к единому высоко согласованному шаблону: разъединение — проверка — стимулы.

Первое: физическое разделение генерации и обучения

Связь между узлами минимальна, генерация траекторий — на глобальной сети потребительских GPU, обновление — в небольшом числе узлов с высокой пропускной способностью. Эта архитектура — стандарт для децентрализованных систем: Prime Intellect с асинхронными Actor-Learner, Gradient с двойной группой, Gensyn с полностью распределённым Swarm.

Второе: проверяемость как инфраструктура

В открытых сетях невозможно полагаться на честность участников, нужно криптографически или логически подтверждать. Проекты используют PoL, TopLoc, Atropos, криптографические вызовы — все решают одну задачу: как обеспечить доверие между незнакомыми узлами. Эти слои проверки со временем станут базой «доверенной вычислительной инфраструктуры».

Третье: токенизация стимулов как естественный выбор

Всё — от предоставления вычислений и генерации данных до верификации и распределения наград — образует замкнутый цикл. Токены стимулируют участие, штрафы — исключают мошенничество. В открытых сетях это обеспечивает стабильность и масштабируемость лучше, чем традиционный краудсорсинг с фиксированными выплатами.

Три главных вызова

За красивыми перспективами скрываются серьёзные проблемы. Путь усиленного обучения в Web3 ещё не проложен без препятствий:

Первое: пропускная способность

Несмотря на инновации вроде DisTrO, физические задержки всё ещё ограничивают обучение моделей с более чем 70B параметров. Сейчас Web3 AI в основном — это донастройка и рассуждение, а не полноценное централизованное обучение.

Второе: уязвимость наградных функций

Это проявление закона Гудхарта: в сильно стимулируемой сети майнеры могут «подгонять» награды под свои цели, «играя» систему. Модель вроде бы улучшается, а на деле — просто «подгоняет» оценки. Создание устойчивых, трудноиграбельных наград — вечная борьба.

Третье: атаки с вредоносными узлами

Злой узел может манипулировать сигналами обучения, чтобы разрушить сходимость всей системы. Это не решается только улучшением наградных функций — нужны механизмы противодействия.

Три возможных сценария развития

Несмотря на сложности, направление развития усиленного обучения в Web3 становится ясным. В будущем можно выделить три взаимодополняющих пути:

Путь 1: иерархическая эволюция децентрализованных сетей обучения

От простых майнеров к кластеризованным подсетям RL. В краткосрочной перспективе — рынок проверяемых рассуждений (код, математика), в среднесрочной — многошаговые рассуждения и стратегия, в долгосрочной — полноценная инфраструктура «от рассуждения до обучения и выравнивания». Prime Intellect и Gensyn движутся в этом направлении.

Путь 2: активизация предпочтений и наград как активов

От низкосортных «меток» к «долевому участию» в данных. Создание на базе моделей наград и их управления — это уже активы, которыми можно управлять и торговать. Fraction AI в некоторой степени движется в этом направлении — участники не просто метят, а участвуют в постоянных «играх» и делят выгоды.

Путь 3: вертикальные «маленькие и красивые» AI-агенты

В узкоспециализированных задачах с проверяемыми результатами — DeFi-стратегии, аудит кода, математические доказательства. В этих сферах стратегия и ценность связаны напрямую, и такие агенты могут превзойти универсальные модели.

Конечное видение

Истинная возможность усиленного обучения в Web3 — не просто создать децентрализованный аналог OpenAI или DeepSeek, а кардинально переопределить «как создаётся, выравнивается и распределяется ценность» в AI.

В централизованной модели AI — это прерогатива гигантов, выравнивание — «черный ящик», а ценность — платформа. В Web3 — обучение становится открытым рынком ресурсов, награды и предпочтения — управляемыми активами, а доходы от интеллекта перераспределяются между участниками.

Это не только технологическая задача, но и переформатирование власти: «кто определяет ценности AI», «кто извлекает выгоду из прогресса». Когда эта революция завершится, мы, возможно, удивимся, что соединение усиленного обучения и Web3 не только меняет производство AI, но и трансформирует его социальную природу.

DEEPSEEK0,27%

PRIME-3,11%

BZZ-1,81%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

0/400

Нет комментариев

Популярные темы
Подробнее
#
TariffTensionsHitCryptoMarket
12.02K Популярность
#
CryptoMarketPullback
330.76K Популярность
#
GateLaunchpadIMU
41.34K Популярность
#
GoldandSilverHitNewHighs
4.73K Популярность
#
WarshLeadsFedChairRace
4.08K Популярность

Горячее на Gate Fun
Подробнее

1
元婴
元婴
РК:$3.43KДержатели:1
0.00%
2
完美世界
荒天帝
РК:$0.1Держатели:1
0.00%
3
吉祥富贵
吉祥富贵
РК:$3.51KДержатели:2
0.00%
4
GWT
ainagenvhai
РК:$3.44KДержатели:1
0.00%
5
horse
马年纪念币
РК:$3.44KДержатели:1
0.00%

Закрепить

Карта сайта

Усиленное обучение встречается с Web3: от реконструкции производственных отношений ИИ

Почему усиленное обучение внезапно стало новым фаворитом AI?

Трехуровневая структура сотрудничества усиленного обучения

Эволюция постобучения: от RLHF к RLAIF и GRPO

Почему Web3 и усиленное обучение — естественная пара?

Шесть ключевых проектов децентрализованного усиленного обучения

Prime Intellect: асинхронное распределённое доказательство

Gensyn: RL Swarm и SAPO

Nous Research: замкнутая система с проверяемыми наградами

Gradient Network: Echo и двойная группа

Экосистема Bittensor и подсеть Grail

Fraction AI: конкуренция как драйвер усиленного обучения

Таблица сравнения шести проектов

Три ключевых преимущества синергии усиленного обучения и Web3

Три главных вызова

Три возможных сценария развития

Конечное видение

Популярные темы

TariffTensionsHitCryptoMarket

CryptoMarketPullback

GateLaunchpadIMU

GoldandSilverHitNewHighs

WarshLeadsFedChairRace

Горячее на Gate Fun

元婴

元婴

完美世界

荒天帝

吉祥富贵

吉祥富贵

GWT

ainagenvhai

horse

马年纪念币

Закрепить