El aprendizaje por refuerzo se encuentra con Web3: comenzando por la reconstrucción de las relaciones de producción de IA

En el impulso doble de la potencia de cálculo y la incentivación, el aprendizaje por refuerzo está redefiniendo la lógica fundamental del entrenamiento descentralizado de IA. Cuando esta tecnología de «post-entrenamiento» se encuentra con los mecanismos económicos de incentivos de la cadena de bloques, se está gestando una transformación paradigmática sobre «cómo se produce, alinea y distribuye el valor de la inteligencia».

¿Por qué el aprendizaje por refuerzo de repente se ha convertido en la nueva estrella de la IA?

El año pasado, la aparición de DeepSeek-R1 puso en el centro de atención una ruta tecnológica que había sido ignorada durante mucho tiempo: el aprendizaje por refuerzo (RL). Antes, la industria consideraba que el RL era solo una herramienta para el alineamiento de valores, más utilizada para ajustar el comportamiento de los modelos. Pero ahora, está evolucionando hacia una vía central para mejorar sistemáticamente la capacidad de razonamiento de la IA.

Desde el punto de vista técnico, el entrenamiento de los LLM modernos se divide en tres fases, cada una con roles distintos en la construcción de capacidades de IA:

Preentrenamiento es la base, construye la «visión del mundo» del modelo mediante auto-supervisión con billones de corpus. Es la fase más costosa (representa entre el 80% y 95% del gasto), requiere miles de H100 entrenando en paralelo, y solo puede realizarse en entornos altamente centralizados, siendo un juego exclusivo de las grandes tecnológicas.

Ajuste por instrucciones (SFT) es la capa intermedia, para inyectar capacidades específicas de tareas. Es relativamente barato (5%-15%), pero aún requiere sincronización de gradientes, con potencial limitado para descentralización.

Post-entrenamiento (Post-training) es la variable clave. Incluye procesos como RLHF, RLAIF, GRPO, con costos solo del 5%-10%, pero que pueden mejorar sistemáticamente la calidad del razonamiento. Lo más importante es que soporta naturalmente la ejecución asíncrona y distribuida: los nodos no necesitan tener todos los pesos, y en teoría pueden unirse o salir dinámicamente. Esto es precisamente lo que busca Web3.

La estructura de colaboración en tres capas del aprendizaje por refuerzo

Para entender por qué el RL es adecuado para la descentralización, primero hay que comprender su estructura técnica.

Un sistema completo de RL está compuesto por tres roles, cuya colaboración determina si puede operar en una red abierta:

Ejecutor (Actor / Rollout Workers): responsable de la inferencia del modelo y generación de datos. Ejecutan tareas según la política actual, generando muchas trayectorias de estado-acción-recompensa. Es altamente paralelo, con comunicación mínima entre nodos, y no sensible a diferencias de hardware. En otras palabras, una GPU de consumo y una aceleradora empresarial pueden trabajar juntas sin problemas.

Evaluador (Evaluators): califican las trayectorias generadas. Usan modelos de recompensa congelados o reglas para puntuar cada trayectoria. Si los resultados de la tarea son verificables (como respuestas matemáticas con solución estándar), la evaluación puede automatizarse completamente.

Aprendiz (Learner / Trainer): recopila todas las trayectorias, realiza actualizaciones de gradiente y optimiza los parámetros de la política. Es la única etapa que requiere un alto ancho de banda y sincronización, generalmente centralizada para garantizar la estabilidad de la convergencia.

La belleza de esta estructura triangular radica en que: la generación de Rollouts puede ser infinitamente paralelizada, la evaluación puede hacerse de forma distribuida, y solo la actualización de parámetros requiere cierto nivel de sincronización. Esto no es posible en el entrenamiento previo tradicional.

De RLHF a RLAIF y luego a GRPO: la evolución del paradigma de post-entrenamiento

Las tecnologías de post-entrenamiento también evolucionan rápidamente, todas apuntando en una misma dirección: ser más baratas, más escalables y más aptas para la descentralización:

RLHF fue la primera solución, basada en preferencias humanas, entrenando modelos de recompensa y optimizando con PPO. Es costosa, lenta y difícil de escalar.

RLAIF reemplaza la anotación humana por un juez de IA, automatizando la generación de preferencias. Empresas como OpenAI, Anthropic y DeepSeek han adoptado esta vía, ya que reduce costos y permite iteraciones rápidas. Pero también tiene limitaciones: las recompensas pueden ser manipuladas.

PRM (Modelo de Recompensa por Proceso) ya no solo evalúa la respuesta final, sino que puntúa cada paso del razonamiento. Esto es clave para que DeepSeek-R1 y OpenAI o1 puedan implementar un «pensamiento lento». Esencialmente, se trata de «enseñar al modelo cómo pensar», en lugar de «enseñar qué es correcto».

GRPO es el optimizador más reciente de DeepSeek, que en comparación con PPO no requiere una red Crítica (ahorrando cálculo), y usa estimaciones de ventajas en grupo para mejorar la estabilidad. Funciona mejor en entornos con múltiples pasos, retrasos y asincronía.

La característica común de esta línea tecnológica es: costos que bajan generación tras generación, escalabilidad que aumenta con cada avance.

¿Por qué Web3 y el aprendizaje por refuerzo son una pareja natural?

A simple vista, Web3 es blockchain + economía incentivadora, y el RL es un algoritmo de optimización de IA; parecen conceptos dispares. Pero en el fondo, ambos son «sistemas impulsados por incentivos»:

  • El RL depende de señales de recompensa para optimizar estrategias
  • La cadena de bloques usa incentivos económicos para coordinar participantes

Esta isomorfía hace que las necesidades centrales del RL — muestreo heterogéneo a gran escala, distribución de recompensas, verificación de resultados — sean exactamente las ventajas estructurales de Web3.

Primera capa: desacoplamiento de entrenamiento y despliegue

El RL puede dividirse naturalmente en dos fases: Rollout (generación de datos) y actualización (ajuste de pesos). El Rollout requiere comunicación escasa y puede paralelizarse globalmente en redes de GPUs de consumo; la actualización necesita nodos centralizados con alto ancho de banda. Este esquema de «ejecución asíncrona y sincronización ligera» es la configuración estándar en redes descentralizadas.

Segunda capa: verificabilidad

En redes abiertas, la honestidad no puede asumirse; hay que garantizarla mediante criptografía o lógica. Afortunadamente, muchos resultados en RL son verificables: si el código compila, si la respuesta matemática es correcta, quién ganó en una partida. Esto hace posible un «Proof-of-Learning»: verificar que los nodos realmente hicieron inferencia, no solo falsificaron resultados.

Tercera capa: programabilidad de incentivos

Los tokens en Web3 pueden recompensar directamente a quienes generan preferencias, contribuyen en Rollouts y verifican. Los mecanismos de staking y slashing refuerzan la honestidad. Esto es mucho más transparente y barato que los modelos tradicionales de crowdsourcing con pago fijo.

Seis proyectos representativos en la descentralización del RL

Actualmente, varios equipos experimentan en esta intersección. Sus enfoques varían, pero la lógica subyacente es sorprendentemente similar.

Prime Intellect: prueba técnica de distribución asíncrona

Prime Intellect busca construir un mercado global de computación abierto, con el núcleo en prime-rl — un motor de RL diseñado específicamente para entornos asíncronos y descentralizados.

El PPO tradicional requiere sincronización, lo que ralentiza todo. prime-rl rompe esa limitación: los actores y aprendices están completamente desacoplados, los actores pueden unirse o salir en cualquier momento, sin esperar a que toda la tanda termine.

En detalles técnicos, integra el motor de inferencia de alto rendimiento vLLM, partición de parámetros FSDP2 y activación esparcida MoE, permitiendo entrenar modelos de miles de millones en clústeres heterogéneos.

Los modelos de la serie INTELLECT han validado esta pila tecnológica: INTELLECT-1 (10B) logra un 98% de utilización en redes heterogéneas en tres continentes, con menos del 2% en costos de comunicación; INTELLECT-2 (32B) prueba por primera vez la viabilidad del RL sin permisos; INTELLECT-3 (106B MoE) entrena en GPUs de consumo un modelo insignia (AIME con 90.8% de precisión en MATH, GPQA 74.4%).

Estos hitos demuestran que el RL descentralizado pasa de concepto a realidad.

Gensyn: RL Swarm y marco SAPO

Gensyn propone una visión más radical: no solo distribuir la potencia de cálculo, sino todo el proceso de aprendizaje colaborativo.

Su innovación central es RL Swarm y SAPO (Swarm Sampling Policy Optimization). RL Swarm convierte el aprendizaje en un ciclo P2P de «generar-evaluar-actualizar»:

  • Solvers generan trayectorias
  • Proposers crean tareas dinámicamente
  • Evaluadores puntúan

No requieren coordinación centralizada, formando un sistema de aprendizaje coherente. SAPO es un algoritmo optimizador adaptado a este entorno asíncrono: no comparte gradientes, solo muestras de trayectorias, con costos de comunicación mínimos.

La filosofía de Gensyn es: el verdadero escalamiento del RL no está en la actualización de parámetros, sino en la exploración masiva y diversa de Rollouts. ¿Por qué no distribuir esa parte completamente?

Nous Research: sistema de ciclo cerrado con recompensas verificables

Nous ha construido un ecosistema completo, con componentes como Hermes, entorno de verificación Atropos, optimización de entrenamiento distribuido DisTrO y red GPU descentralizada Psyche.

Atropos es la innovación más significativa: no solo un entorno de RL, sino una «capa de recompensas verificables». Para tareas con resultados verificables (matemáticas, código), verifica directamente la corrección y genera recompensas deterministas. Para tareas no verificables, ofrece interfaces estándar de entornos RL.

Lo más importante: en la red descentralizada Psyche, Atropos actúa como «árbitro» para verificar si los mineros realmente mejoraron la estrategia, resolviendo uno de los mayores problemas de confianza en RL distribuido.

El ecosistema de Nous conecta datos, entornos, modelos e infraestructura en un protocolo central. Hermes evoluciona hacia un «sistema vivo que mejora continuamente en redes de computación abiertas».

Gradient Network: marco Echo y arquitectura de doble grupo

El marco Echo de Gradient usa una arquitectura de doble grupo: «grupo de inferencia + grupo de entrenamiento», cada uno funcionando de forma independiente. El grupo de inferencia, con GPUs de consumo y dispositivos edge, genera trayectorias a alta velocidad; el de entrenamiento, actualiza y sincroniza parámetros.

Ofrece dos modos de sincronización: secuencial, que mantiene las trayectorias frescas pero puede desperdiciar recursos; y asíncrono, que maximiza la utilización de dispositivos pero tolera más latencia. Esta flexibilidad permite adaptarse a distintas condiciones de red.

Todo el stack de Gradient integra inferencia distribuida (Parallax), entrenamiento RL (Echo), red P2P (Lattica) y verificación (VeriLLM). Es probablemente la pila de protocolos de IA abierta más completa.

Ecosistema Bittensor y subred Grail

Bittensor, con su mecanismo de consenso Yuma, construye una vasta red de funciones de recompensa dispersa y no estacionaria. Covenant AI ha desarrollado toda la línea de producción desde preentrenamiento hasta RL post-entrenamiento.

Grail es la capa verificable de inferencia para RL post-entrenamiento. Su innovación radica en demostrar criptográficamente la autenticidad de cada Rollout:

  1. Usa drand para generar desafíos impredecibles (SAT, GSM8K), evitando trampas precomputadas
  2. Indexa con PRF y compromisos de esquemas para muestreos de bajo costo
  3. Vincula inferencia y huellas digitales de pesos del modelo, para detectar rápidamente modelos sustitutos

Experimentos públicos muestran que Grail aumenta la precisión en MATH de Qwen2.5-1.5B del 12.7% al 47.6%, previniendo trampas y fortaleciendo capacidades.

Fraction AI: aprendizaje competitivo impulsado por la competencia

Si los proyectos anteriores se centran en «cómo distribuir el entrenamiento», Fraction AI se enfoca en «cómo aprender mediante competencia».

Reemplaza la recompensa estática de RLHF por un entorno competitivo dinámico. Los agentes compiten en diferentes espacios de tareas, y su clasificación relativa y las puntuaciones de jueces AI constituyen recompensas en tiempo real. La alineación se convierte en un juego multi-agente continuo.

Su arquitectura divide en cuatro módulos: agentes ligeros (fine-tuning con QLoRA), espacios de tareas aislados, jueces AI descentralizados y capa de verificación Proof-of-Learning.

El núcleo de Fraction es un «motor evolutivo de colaboración humano-máquina»: los usuarios guían con prompts, y los agentes generan automáticamente grandes conjuntos de datos de preferencias en competencia. En este esquema, la anotación de datos deja de ser un coste laboral, para convertirse en un ciclo de negocio mediante microajustes descentralizados.

Comparación técnica de los seis proyectos

Dimensión Prime Intellect Gensyn Nous Research Gradient Grail Fraction AI
Marco central prime-rl RL Swarm + SAPO DisTrO + Psyche Echo Verificación criptográfica RLFC competitivo
Coste de comunicación muy bajo (optimización de ancho de banda) muy bajo (sin compartir gradientes) muy bajo (compresión de gradientes) medio (sincronización doble) muy bajo (muestreo y verificación) bajo (competencia asíncrona)
Verificabilidad huella TopLoc PoL + Verde Recompensas Atropos VeriLLM desafíos criptográficos clasificación por competencia
Incentivos por contribución recompensas en tokens staking y slashing tokens de red distribución TAO tarifa de entrada en Spaces
Máximo parámetro 106B (MoE) 100B+ 70B+ por definir 1.5B (prueba) fine-tuning de LLM
Madurez avanzada (mainnet activa) media (en prueba) media (en desarrollo) media (en creación) baja (sin mainnet) baja (temprana)

Las tres ventajas estructurales de combinar RL y Web3

Aunque los proyectos abordan diferentes aspectos, al fusionar RL con Web3, la lógica subyacente converge en un paradigma altamente coherente: desacoplar-verificar-incentivar.

Primero: desacoplamiento de entrenamiento y despliegue

El RL puede dividirse en dos fases: Rollout (generación de datos) y actualización (ajuste de pesos). El Rollout, con comunicación escasa y paralelización global, se apoya en redes de GPUs de consumo; la actualización, en nodos centralizados con gran ancho de banda. Este esquema de «ejecución asíncrona y sincronización ligera» es la configuración estándar en redes descentralizadas.

Segundo: verificabilidad como infraestructura

En redes abiertas, la honestidad no puede asumirse; hay que garantizarla mediante criptografía o lógica. Los ejemplos como PoL, TopLoc, Atropos y desafíos criptográficos muestran cómo hacer que nodos desconocidos confíen entre sí. Estas capas de verificación evolucionarán hacia infraestructuras de computación confiable universal.

Tercero: incentivos tokenizados como opción natural

La oferta de potencia, generación de datos, verificación y distribución de recompensas conforman un ciclo completo. Los tokens recompensan la participación, y mecanismos de staking y slashing refuerzan la honestidad. Este sistema es mucho más transparente y barato que los modelos tradicionales de crowdsourcing con pago fijo.

Los tres grandes desafíos

Detrás de la visión prometedora, la realidad es dura. La ruta RL×Web3 enfrenta tres obstáculos principales:

Primero: muro de ancho de banda

Aunque existen innovaciones como DisTrO en compresión de gradientes, la latencia física limita el entrenamiento completo de modelos con más de 70B de parámetros. Actualmente, la IA en Web3 se limita a ajustes finos y inferencia, sin poder igualar la capacidad de entrenamiento en la nube centralizada.

Segundo: vulnerabilidad de las funciones de recompensa ante ataques

Es la manifestación digital de la ley de Goodhart. En redes altamente incentivadas, los mineros tienden a sobreajustar las reglas de recompensa. Aunque el modelo parece mejorar, en realidad solo están «engañando» las métricas. Diseñar recompensas robustas y difícilmente manipulables es un juego eterno.

Tercero: ataques de envenenamiento por nodos babilónicos

Un nodo malicioso puede manipular activamente las señales de entrenamiento para sabotear la convergencia del modelo global. No basta con mejores funciones de recompensa; se requiere construir robustez contra ataques desde la mecánica misma.

Tres posibles rutas de evolución

A pesar de los obstáculos, la trayectoria del RL×Web3 se vuelve cada vez más clara. Se proyecta avanzar en tres caminos complementarios:

Camino uno: evolución en capas de redes descentralizadas de entrenamiento

Desde mineros de potencia simple, hacia subredes de RL agrupadas por tareas. A corto plazo, mercados verificables de inferencia (código, matemáticas); a mediano plazo, razonamiento en múltiples pasos y optimización de estrategias; a largo plazo, infraestructura abierta que abarque todo el ciclo — entrenamiento, ajuste y alineamiento. Prime Intellect y Gensyn avanzan en esta dirección.

Camino dos: tokenización de preferencias y recompensas

De trabajos de etiquetado de bajo valor, a activos de datos y modelos de recompensa. La gobernanza y propiedad de feedback de alta calidad se vuelven activos transferibles en cadena. Fraction AI ya apunta en esta línea: los usuarios dejan de ser simples etiquetadores pasivos, para participar en un ciclo continuo de competencia y valor.

Camino tres: agentes especializados en nichos con resultados verificables

Desarrollar RL Agents pequeños y potentes en dominios donde los resultados sean verificables y los beneficios cuantificables: DeFi, auditoría de código, pruebas matemáticas. En estos ámbitos, la mejora de estrategia y captura de valor están directamente vinculadas, con potencial para superar a grandes modelos cerrados y genéricos.

La visión final

La verdadera oportunidad de RL×Web3 no es simplemente crear una versión descentralizada de OpenAI o DeepSeek, sino reescribir radicalmente las relaciones de producción del «cómo se produce, alinea y distribuye el valor de la inteligencia».

En el modelo centralizado, la capacidad de IA es un bien exclusivo de las grandes tecnológicas, el alineamiento es una caja negra, y el valor se concentra en la plataforma. En la nueva lógica Web3, el entrenamiento y despliegue se vuelven mercados abiertos de computación, los incentivos y preferencias son activos gobernables en cadena, y las ganancias de la inteligencia se redistribuyen entre contribuyentes, verificadores y usuarios.

No es solo una cuestión técnica, sino una reconfiguración del poder: ¿quién decide los valores de la IA? ¿Quién se beneficia del progreso? Cuando esta transformación se complete, quizás miremos atrás y nos sorprendamos: la unión de RL y Web3 no solo cambió la forma de producir IA, sino que también transformó la propia naturaleza social de la revolución de la inteligencia.

DEEPSEEK-5,11%
PRIME-3,45%
BZZ0,44%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)