Sous la double impulsion de la puissance de calcul et de l’incitation, l’apprentissage par renforcement est en train de remodeler la logique fondamentale de la formation d’IA décentralisée. Lorsque cette technologie « post-formation » rencontre le mécanisme d’incitation économique de la blockchain, une révolution paradigmique sur « comment l’intelligence est produite, alignée et la valeur distribuée » se prépare.
Pourquoi l’apprentissage par renforcement est-il soudainement devenu la nouvelle star de l’IA ?
L’an dernier, l’émergence de DeepSeek-R1 a permis de remettre sous les projecteurs une voie technologique longtemps négligée — l’apprentissage par renforcement (RL). Avant cela, l’industrie considérait généralement le RL comme un outil d’alignement de la valeur, principalement utilisé pour affiner le comportement des modèles. Mais aujourd’hui, il évolue pour devenir une voie centrale pour améliorer systématiquement la capacité de raisonnement de l’IA.
Du point de vue technologique, la formation moderne des grands modèles (LLM) se divise en trois phases, chacune jouant un rôle distinct dans le développement des capacités de l’IA :
Pré-entraînement : la base, construit un « worldview » du modèle via un apprentissage auto-supervisé sur des trillions de données. C’est la phase la plus coûteuse (80%-95% du budget), nécessitant des milliers de GPU H100 en synchronisation, et ne pouvant fonctionner que dans un environnement hautement centralisé, réservé aux géants de la tech.
Fine-tuning par instructions (SFT) : une étape intermédiaire pour injecter des capacités spécifiques à la tâche. Coûte relativement peu (5%-15%), mais requiert encore une synchronisation de gradients, limitant le potentiel de décentralisation.
Post-formation : la phase clé. Elle inclut RLHF, RLAIF, GRPO, etc., avec un coût de seulement 5%-10%, mais capable d’améliorer systématiquement la qualité du raisonnement. Plus important encore, elle supporte naturellement une exécution asynchrone et distribuée — les nœuds n’ont pas besoin de détenir l’intégralité des poids, pouvant rejoindre ou quitter le réseau dynamiquement. C’est précisément ce que Web3 recherche.
La structure tripartite de la collaboration en apprentissage par renforcement
Pour comprendre pourquoi le RL est adapté à la décentralisation, il faut d’abord saisir sa structure technique.
Un système complet de RL se compose de trois rôles principaux, dont la collaboration détermine si le système peut fonctionner sur un réseau ouvert :
Acteur (Actor / Rollout Workers) : responsable de l’inférence du modèle et de la génération de données. Il exécute des tâches selon la stratégie courante, produisant de nombreux trajets état-action-récompense. Ce processus est hautement parallèle, avec peu de communication entre nœuds, et peu sensible aux différences matérielles. En d’autres termes, un GPU grand public et une carte accélératrice d’entreprise peuvent fonctionner simultanément sans se ralentir mutuellement.
Évaluateurs (Evaluators) : notent les trajets générés. Ils utilisent un modèle de récompense gelé ou des règles pour attribuer une note à chaque trajectoire. Si le résultat de la tâche est vérifiable (ex. réponse à une question mathématique), l’évaluation peut être entièrement automatisée.
Apprenant (Learner / Trainer) : rassemble toutes les trajectoires, effectue la mise à jour par gradient, optimise les paramètres de la stratégie. C’est le seul rôle nécessitant une bande passante élevée et une synchronisation stricte, généralement centralisé pour assurer la stabilité de la convergence.
Ce triptyque présente une grande flexibilité : la génération de trajets peut être infiniment parallélisée, l’évaluation peut être distribuée, seule la mise à jour des paramètres requiert une synchronisation partielle. Ce qui est impossible avec une formation préliminaire classique.
De RLHF à RLAIF puis GRPO : l’évolution de la post-formation
Les techniques de post-formation évoluent rapidement, toutes dans une direction : moins coûteuses, plus évolutives, mieux adaptées à la décentralisation.
RLHF : la première solution, basée sur des préférences humaines annotées, entraînant un modèle de récompense, puis optimisant la stratégie via PPO. Coûteux, lent, difficile à faire évoluer à grande échelle.
RLAIF : remplace l’annotation humaine par un juge IA, automatisant la génération de préférences. OpenAI, Anthropic, DeepSeek s’orientent vers cette voie, car elle réduit les coûts et permet une itération rapide. Mais elle a ses limites — la récompense peut être manipulée ou « gamifiée ».
PRM (Modèle de récompense procédural) : ne se contente pas d’évaluer la réponse finale, mais attribue une note à chaque étape du raisonnement. C’est la clé pour DeepSeek-R1 et OpenAI o1 pour réaliser une « pensée lente ». En substance, il s’agit d’enseigner au modèle comment penser, plutôt que ce qu’il doit penser.
GRPO : le dernier optimiseur de DeepSeek, plus léger que PPO puisqu’il n’utilise pas de réseau Critic (économies de calcul), et plus stable dans des environnements asynchrones et à retardement multi-étapes.
Ce fil technologique partage une caractéristique : le coût diminue à chaque étape, la scalabilité augmente.
Pourquoi Web3 et l’apprentissage par renforcement forment-ils une paire naturelle ?
De prime abord, Web3 — blockchain + économie d’incitation — et RL — algorithme d’optimisation IA — semblent sans rapport. Mais en profondeur, ils sont tous deux des « systèmes à incitation » :
Le RL dépend d’un signal de récompense pour optimiser la stratégie
La blockchain utilise une incitation économique pour coordonner les participants
Cette isomorphie fait que les besoins fondamentaux du RL — échantillonnage massif et hétérogène, attribution de récompenses, vérification des résultats — correspondent parfaitement aux avantages structurels de Web3.
Premier niveau : séparation du déploiement et de la formation
Le RL peut être découpé en deux phases : Rollout (génération de données) et Mise à jour (modification des poids). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième niveau : vérifiabilité
Dans un réseau ouvert, l’honnêteté ne peut être supposée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième niveau : programmabilité de l’incitation
Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. C’est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démontré la faisabilité du RL permissionless ; INTELLECT-3 (106B MoE) a entraîné un modèle phare sur GPU grand public (précision AIME 90.8%, GPQA 74.4%).
Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.
Gensyn : RL Swarm et cadre SAPO
Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.
Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :
Solvers génèrent des trajectoires
Proposers créent dynamiquement des tâches
Évaluateurs notent
Pas besoin de coordination centrale, tout fonctionne en auto-organisation. SAPO est un algorithme optimisé pour cet environnement asynchrone : il ne partage pas de gradients, mais uniquement des trajectoires, avec une communication minimale.
La philosophie de Gensyn : le vrai point d’échelle du RL n’est pas la mise à jour des paramètres, mais l’exploration massive et diversifiée par Rollout. Pourquoi ne pas tout décentraliser cette partie ?
Nous Research : système fermé avec récompenses vérifiables
Nous Research construit un écosystème complet, avec notamment le modèle Hermes, l’environnement de vérification Atropos, l’optimisation distribuée DisTrO, et le réseau GPU décentralisé Psyche.
Atropos est particulièrement innovant : ce n’est pas seulement un environnement RL, mais aussi une « couche de récompense vérifiable ». Pour des tâches vérifiables (maths, code), Atropos vérifie directement la sortie, générant une récompense déterministe. Pour des résultats incertains, il fournit une interface standardisée RL.
Plus important, dans le réseau décentralisé Psyche, Atropos agit comme un « arbitre » pour vérifier si les mineurs ont réellement amélioré la stratégie. Cela résout le problème de confiance majeur en RL distribué.
Le système de Nous intègre RL comme un protocole central reliant données, environnement, modèles et infrastructure. Hermes évolue vers un « système vivant capable de s’auto-améliorer en permanence sur un réseau de puissance de calcul open source ».
Gradient Network : cadre Echo et architecture double groupe
Le cadre Echo de Gradient utilise une architecture à deux groupes : « groupe d’inférence + groupe d’entraînement », chacun fonctionnant indépendamment. Le groupe d’inférence, composé de GPU grand public et d’appareils edge, génère des trajectoires à haut débit ; le groupe d’entraînement se charge de la mise à jour des gradients et de la synchronisation des paramètres.
Echo propose deux modes de synchronisation : en série (pour la fraîcheur des trajectoires, mais moins efficace en calcul) et asynchrone (maximisant l’utilisation des appareils, avec plus de latence). Cette flexibilité permet d’adapter le système à diverses conditions réseau.
L’ensemble de la stack Gradient intègre la inférence distribuée (Parallax), l’entraînement RL (Echo), le réseau P2P (Lattica), la vérification (VeriLLM), formant peut-être la « pile d’IA ouverte la plus complète ».
Écosystème Bittensor avec le sous-réseau Grail
Bittensor, via son mécanisme de consensus Yuma, construit un vaste réseau de fonctions de récompense sparse et non stationnaires. Covenant AI a développé une pipeline complète allant du pré-entraînement à la post-formation RL.
Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :
Utilisation de drand pour générer des défis aléatoires (SAT, GSM8K), empêchant la pré-calculabilité
Utilisation de PRF et de commitments pour échantillonner et vérifier à faible coût
Lier l’inférence aux empreintes des poids du modèle, pour détecter toute substitution
Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.
Fraction AI : apprentissage par renforcement par compétition
Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».
Fraction AI remplace la récompense statique de RLHF par un environnement compétitif dynamique. Des agents s’affrontent dans différents espaces de tâches, avec un classement relatif et une évaluation par juge IA, formant un système de multi-agent en boucle continue.
L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.
L’essence de Fraction : un « moteur d’évolution homme-machine » où les utilisateurs orientent via le prompt, et les agents génèrent automatiquement une masse de préférences de haute qualité. La collecte de données n’est plus une tâche humaine coûteuse, mais une boucle commerciale auto-renforcée par micro-ajustements décentralisés.
Comparaison technique des six projets
Dimension
Prime Intellect
Gensyn
Nous Research
Gradient
Grail
Fraction AI
Cadre central
prime-rl
RL Swarm + SAPO
DisTrO + Psyche
Echo
Vérification cryptographique
RLFC compétition
Coût de communication
très faible (optimisation bande passante)
très faible (pas de partage de gradients)
très faible (compression de gradients)
moyen (synchronisation double groupe)
très faible (échantillonnage + vérification)
faible (asynchrone, compétition)
Vérifiabilité
empreinte TopLoc
PoL + Verde
récompense Atropos
VeriLLM
défi cryptographique
classement par compétition
Mécanisme d’incitation
paiement selon contribution
récompenses en tokens
staking + slashing
tokens réseau
attribution TAO
frais d’entrée dans Spaces
Plus grand paramètre
106B (MoE)
100B+
70B+
à déterminer
1.5B (test)
fine-tuning LLM
Maturité
avancée (déjà mainnet)
intermédiaire (test)
intermédiaire (R&D)
intermédiaire (dev)
faible (pas mainnet)
faible (early stage)
Les trois avantages structuraux de l’apprentissage par renforcement × Web3
Malgré des angles d’approche différents, la convergence de l’apprentissage par renforcement et de Web3 repose sur une même logique paradigmique : découplage - vérification - incitation.
Premier : séparation physique du déploiement et de la formation
Le RL peut être découpé en deux phases : Rollout (génération de données) et Mise à jour (modification des poids). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se déploie idéalement sur un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième : vérifiabilité comme infrastructure
Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique formelle. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième : incitation programmable
Les tokens de Web3 peuvent directement récompenser contributeurs à la préférence, générateurs de trajets, validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. C’est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démontré la faisabilité du RL permissionless ; INTELLECT-3 (106B MoE) a entraîné un modèle phare sur GPU grand public (précision AIME 90.8%, GPQA 74.4%).
Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.
Gensyn : RL Swarm et cadre SAPO
Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.
Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :
Solvers génèrent des trajectoires
Proposers créent dynamiquement des tâches
Évaluateurs notent
Pas besoin de coordination centrale, tout fonctionne en auto-organisation. SAPO est un algorithme optimisé pour cet environnement asynchrone : il ne partage pas de gradients, mais uniquement des trajectoires, avec une communication minimale.
La philosophie de Gensyn : le vrai point d’échelle du RL n’est pas la mise à jour des paramètres, mais l’exploration massive et diversifiée par Rollout. Pourquoi ne pas tout décentraliser cette partie ?
Nous Research : système fermé avec récompenses vérifiables
Nous Research construit un écosystème complet, avec notamment le modèle Hermes, l’environnement de vérification Atropos, l’optimisation distribuée DisTrO, et le réseau GPU décentralisé Psyche.
Atropos est particulièrement innovant : ce n’est pas seulement un environnement RL, mais aussi une « couche de récompense vérifiable ». Pour des tâches vérifiables (maths, code), Atropos vérifie directement la sortie, générant une récompense déterministe. Pour des résultats incertains, il fournit une interface standardisée RL.
Plus important, dans le réseau décentralisé Psyche, Atropos agit comme un « arbitre » pour vérifier si les mineurs ont réellement amélioré la stratégie. Cela résout le problème de confiance majeur en RL distribué.
Le système de Nous intègre RL comme un protocole central reliant données, environnement, modèles et infrastructure. Hermes évolue vers un « système vivant capable de s’auto-améliorer en permanence sur un réseau de puissance de calcul open source ».
Gradient Network : cadre Echo et architecture double groupe
Le cadre Echo de Gradient utilise une architecture à deux groupes : « groupe d’inférence + groupe d’entraînement », chacun fonctionnant indépendamment. Le groupe d’inférence, composé de GPU grand public et d’appareils edge, génère des trajectoires à haut débit ; le groupe d’entraînement se charge de la mise à jour des gradients et de la synchronisation des paramètres.
Echo propose deux modes de synchronisation : en série (pour la fraîcheur des trajectoires, mais moins efficace en calcul) et asynchrone (maximisant l’utilisation des appareils, avec plus de latence). Cette flexibilité permet d’adapter le système à diverses conditions réseau.
L’ensemble de la stack Gradient intègre la inférence distribuée (Parallax), l’entraînement RL (Echo), le réseau P2P (Lattica), la vérification (VeriLLM), formant peut-être la « pile d’IA ouverte la plus complète ».
Écosystème Bittensor avec le sous-réseau Grail
Bittensor, via son mécanisme de consensus Yuma, construit un vaste réseau de fonctions de récompense sparse et non stationnaires. Covenant AI a développé une pipeline complète allant du pré-entraînement à la post-formation RL.
Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :
Utilisation de drand pour générer des défis aléatoires (SAT, GSM8K), empêchant la pré-calculabilité
Utilisation de PRF et de commitments pour échantillonner et vérifier à faible coût
Lier l’inférence aux empreintes des poids du modèle, pour détecter toute substitution
Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.
Fraction AI : apprentissage par renforcement par compétition
Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».
Fraction AI remplace la récompense statique de RLHF par un environnement compétitif dynamique. Des agents s’affrontent dans différents espaces de tâches, avec un classement relatif et une évaluation par juge IA, formant un système de multi-agent en boucle continue.
L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.
L’essence de Fraction : un « moteur d’évolution homme-machine » où les utilisateurs orientent via le prompt, et les agents génèrent automatiquement une masse de préférences de haute qualité. La collecte de données n’est plus une tâche humaine coûteuse, mais une boucle commerciale auto-renforcée par micro-ajustements décentralisés.
Comparaison technique des six projets
Dimension
Prime Intellect
Gensyn
Nous Research
Gradient
Grail
Fraction AI
Cadre central
prime-rl
RL Swarm + SAPO
DisTrO + Psyche
Echo
Vérification cryptographique
RLFC compétition
Coût de communication
très faible (optimisation bande passante)
très faible (pas de partage de gradients)
très faible (compression de gradients)
moyen (synchronisation double groupe)
très faible (échantillonnage + vérification)
faible (asynchrone, compétition)
Vérifiabilité
empreinte TopLoc
PoL + Verde
récompense Atropos
VeriLLM
défi cryptographique
classement par compétition
Mécanisme d’incitation
paiement selon contribution
récompenses en tokens
staking + slashing
tokens réseau
attribution TAO
frais d’entrée dans Spaces
Plus grand paramètre
106B MoE
100B+
70B+
à déterminer
1.5B test
fine-tuning LLM
Maturité
avancée (déjà mainnet)
intermédiaire (test)
intermédiaire (R&D)
intermédiaire (dev)
faible (pas mainnet)
faible (early stage)
Les trois grands avantages structurels de l’apprentissage par renforcement × Web3
Bien que chaque projet ait une approche différente, leur logique sous-jacente converge vers un paradigme hautement cohérent : découplage - vérification - incitation.
Premier : séparation physique du déploiement et de la formation
Le RL peut être décomposé en deux phases : Rollout (génération de données) et Mise à jour (optimisation). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième : vérifiabilité comme infrastructure
Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième : incitation programmable
Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. Cela est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démontré la faisabilité du RL permissionless ; INTELLECT-3 (106B MoE) a entraîné un modèle phare sur GPU grand public (précision AIME 90.8%, GPQA 74.4%).
Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.
Gensyn : RL Swarm et cadre SAPO
Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.
Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :
Solvers génèrent des trajectoires
Proposers créent dynamiquement des tâches
Évaluateurs notent
Pas besoin de coordination centrale, tout fonctionne en auto-organisation. SAPO est un algorithme optimisé pour cet environnement asynchrone : il ne partage pas de gradients, mais uniquement des trajectoires, avec une communication minimale.
La philosophie de Gensyn : le vrai point d’échelle du RL n’est pas la mise à jour des paramètres, mais l’exploration massive et diversifiée par Rollout. Pourquoi ne pas tout décentraliser cette partie ?
Nous Research : système fermé avec récompenses vérifiables
Nous Research construit un écosystème complet, avec notamment le modèle Hermes, l’environnement de vérification Atropos, l’optimisation distribuée DisTrO, et le réseau GPU décentralisé Psyche.
Atropos est particulièrement innovant : ce n’est pas seulement un environnement RL, mais aussi une « couche de récompense vérifiable ». Pour des tâches vérifiables (maths, code), Atropos vérifie directement la sortie, générant une récompense déterministe. Pour des résultats incertains, il fournit une interface standardisée RL.
Plus important, dans le réseau décentralisé Psyche, Atropos agit comme un « arbitre » pour vérifier si les mineurs ont réellement amélioré la stratégie. Cela résout le problème de confiance majeur en RL distribué.
Le système de Nous intègre RL comme un protocole central reliant données, environnement, modèles et infrastructure. Hermes évolue vers un « système vivant capable de s’auto-améliorer en permanence sur un réseau de puissance de calcul open source ».
Gradient Network : cadre Echo et architecture double groupe
Le cadre Echo de Gradient utilise une architecture à deux groupes : « groupe d’inférence + groupe d’entraînement », chacun fonctionnant indépendamment. Le groupe d’inférence, composé de GPU grand public et d’appareils edge, génère des trajectoires à haut débit ; le groupe d’entraînement se charge de la mise à jour des gradients et de la synchronisation des paramètres.
Echo propose deux modes de synchronisation : en série (pour la fraîcheur des trajectoires, mais moins efficace en calcul) et asynchrone (maximisant l’utilisation des appareils, avec plus de latence). Cette flexibilité permet d’adapter le système à diverses conditions réseau.
L’ensemble de la stack Gradient intègre la inférence distribuée (Parallax), l’entraînement RL (Echo), le réseau P2P (Lattica), la vérification (VeriLLM), formant peut-être la « pile d’IA ouverte la plus complète ».
Écosystème Bittensor avec le sous-réseau Grail
Bittensor, via son mécanisme de consensus Yuma, construit un vaste réseau de fonctions de récompense sparse et non stationnaires. Covenant AI a développé une pipeline complète allant du pré-entraînement à la post-formation RL.
Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :
Utilisation de drand pour générer des défis aléatoires (SAT, GSM8K), empêchant la pré-calculabilité
Utilisation de PRF et de commitments pour échantillonner et vérifier à faible coût
Lier l’inférence aux empreintes des poids du modèle, pour détecter toute substitution
Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.
Fraction AI : apprentissage par renforcement par compétition
Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».
Fraction AI remplace la récompense statique de RLHF par un environnement compétitif dynamique. Des agents s’affrontent dans différents espaces de tâches, avec un classement relatif et une évaluation par juge IA, formant un système de multi-agent en boucle continue.
L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.
L’essence de Fraction : un « moteur d’évolution homme-machine » où les utilisateurs orientent via le prompt, et les agents génèrent automatiquement une masse de préférences de haute qualité. La collecte de données n’est plus une tâche humaine coûteuse, mais une boucle commerciale auto-renforcée par micro-ajustements décentralisés.
Comparaison technique des six projets
Dimension
Prime Intellect
Gensyn
Nous Research
Gradient
Grail
Fraction AI
Cadre central
prime-rl
RL Swarm + SAPO
DisTrO + Psyche
Echo
Vérification cryptographique
RLFC compétition
Coût de communication
très faible (optimisation bande passante)
très faible (pas de partage de gradients)
très faible (compression de gradients)
moyen (synchronisation double groupe)
très faible (échantillonnage + vérification)
faible (asynchrone, compétition)
Vérifiabilité
empreinte TopLoc
PoL + Verde
récompense Atropos
VeriLLM
défi cryptographique
classement par compétition
Mécanisme d’incitation
paiement selon contribution
récompenses en tokens
staking + slashing
tokens réseau
attribution TAO
frais d’entrée dans Spaces
Plus grand paramètre
106B MoE
100B+
70B+
à déterminer
1.5B test
fine-tuning LLM
Maturité
avancée (déjà mainnet)
intermédiaire (test)
intermédiaire (R&D)
intermédiaire (dev)
faible (pas mainnet)
faible (early stage)
Les trois grands avantages structurels de l’apprentissage par renforcement × Web3
Malgré des approches différentes, la convergence de l’apprentissage par renforcement et de Web3 repose sur une même logique : découplage - vérification - incitation.
Premier : séparation physique du déploiement et de la formation
Le RL peut être décomposé en deux phases : Rollout (génération de données) et Mise à jour (optimisation). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième : vérifiabilité comme infrastructure
Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième : incitation programmable
Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. Cela est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démon
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'apprentissage par renforcement rencontre Web3 : pour commencer par la reconstruction des relations de production de l'IA
Pourquoi l’apprentissage par renforcement est-il soudainement devenu la nouvelle star de l’IA ?
L’an dernier, l’émergence de DeepSeek-R1 a permis de remettre sous les projecteurs une voie technologique longtemps négligée — l’apprentissage par renforcement (RL). Avant cela, l’industrie considérait généralement le RL comme un outil d’alignement de la valeur, principalement utilisé pour affiner le comportement des modèles. Mais aujourd’hui, il évolue pour devenir une voie centrale pour améliorer systématiquement la capacité de raisonnement de l’IA.
Du point de vue technologique, la formation moderne des grands modèles (LLM) se divise en trois phases, chacune jouant un rôle distinct dans le développement des capacités de l’IA :
Pré-entraînement : la base, construit un « worldview » du modèle via un apprentissage auto-supervisé sur des trillions de données. C’est la phase la plus coûteuse (80%-95% du budget), nécessitant des milliers de GPU H100 en synchronisation, et ne pouvant fonctionner que dans un environnement hautement centralisé, réservé aux géants de la tech.
Fine-tuning par instructions (SFT) : une étape intermédiaire pour injecter des capacités spécifiques à la tâche. Coûte relativement peu (5%-15%), mais requiert encore une synchronisation de gradients, limitant le potentiel de décentralisation.
Post-formation : la phase clé. Elle inclut RLHF, RLAIF, GRPO, etc., avec un coût de seulement 5%-10%, mais capable d’améliorer systématiquement la qualité du raisonnement. Plus important encore, elle supporte naturellement une exécution asynchrone et distribuée — les nœuds n’ont pas besoin de détenir l’intégralité des poids, pouvant rejoindre ou quitter le réseau dynamiquement. C’est précisément ce que Web3 recherche.
La structure tripartite de la collaboration en apprentissage par renforcement
Pour comprendre pourquoi le RL est adapté à la décentralisation, il faut d’abord saisir sa structure technique.
Un système complet de RL se compose de trois rôles principaux, dont la collaboration détermine si le système peut fonctionner sur un réseau ouvert :
Acteur (Actor / Rollout Workers) : responsable de l’inférence du modèle et de la génération de données. Il exécute des tâches selon la stratégie courante, produisant de nombreux trajets état-action-récompense. Ce processus est hautement parallèle, avec peu de communication entre nœuds, et peu sensible aux différences matérielles. En d’autres termes, un GPU grand public et une carte accélératrice d’entreprise peuvent fonctionner simultanément sans se ralentir mutuellement.
Évaluateurs (Evaluators) : notent les trajets générés. Ils utilisent un modèle de récompense gelé ou des règles pour attribuer une note à chaque trajectoire. Si le résultat de la tâche est vérifiable (ex. réponse à une question mathématique), l’évaluation peut être entièrement automatisée.
Apprenant (Learner / Trainer) : rassemble toutes les trajectoires, effectue la mise à jour par gradient, optimise les paramètres de la stratégie. C’est le seul rôle nécessitant une bande passante élevée et une synchronisation stricte, généralement centralisé pour assurer la stabilité de la convergence.
Ce triptyque présente une grande flexibilité : la génération de trajets peut être infiniment parallélisée, l’évaluation peut être distribuée, seule la mise à jour des paramètres requiert une synchronisation partielle. Ce qui est impossible avec une formation préliminaire classique.
De RLHF à RLAIF puis GRPO : l’évolution de la post-formation
Les techniques de post-formation évoluent rapidement, toutes dans une direction : moins coûteuses, plus évolutives, mieux adaptées à la décentralisation.
RLHF : la première solution, basée sur des préférences humaines annotées, entraînant un modèle de récompense, puis optimisant la stratégie via PPO. Coûteux, lent, difficile à faire évoluer à grande échelle.
RLAIF : remplace l’annotation humaine par un juge IA, automatisant la génération de préférences. OpenAI, Anthropic, DeepSeek s’orientent vers cette voie, car elle réduit les coûts et permet une itération rapide. Mais elle a ses limites — la récompense peut être manipulée ou « gamifiée ».
PRM (Modèle de récompense procédural) : ne se contente pas d’évaluer la réponse finale, mais attribue une note à chaque étape du raisonnement. C’est la clé pour DeepSeek-R1 et OpenAI o1 pour réaliser une « pensée lente ». En substance, il s’agit d’enseigner au modèle comment penser, plutôt que ce qu’il doit penser.
GRPO : le dernier optimiseur de DeepSeek, plus léger que PPO puisqu’il n’utilise pas de réseau Critic (économies de calcul), et plus stable dans des environnements asynchrones et à retardement multi-étapes.
Ce fil technologique partage une caractéristique : le coût diminue à chaque étape, la scalabilité augmente.
Pourquoi Web3 et l’apprentissage par renforcement forment-ils une paire naturelle ?
De prime abord, Web3 — blockchain + économie d’incitation — et RL — algorithme d’optimisation IA — semblent sans rapport. Mais en profondeur, ils sont tous deux des « systèmes à incitation » :
Cette isomorphie fait que les besoins fondamentaux du RL — échantillonnage massif et hétérogène, attribution de récompenses, vérification des résultats — correspondent parfaitement aux avantages structurels de Web3.
Premier niveau : séparation du déploiement et de la formation
Le RL peut être découpé en deux phases : Rollout (génération de données) et Mise à jour (modification des poids). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième niveau : vérifiabilité
Dans un réseau ouvert, l’honnêteté ne peut être supposée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième niveau : programmabilité de l’incitation
Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. C’est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démontré la faisabilité du RL permissionless ; INTELLECT-3 (106B MoE) a entraîné un modèle phare sur GPU grand public (précision AIME 90.8%, GPQA 74.4%).
Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.
Gensyn : RL Swarm et cadre SAPO
Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.
Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :
Pas besoin de coordination centrale, tout fonctionne en auto-organisation. SAPO est un algorithme optimisé pour cet environnement asynchrone : il ne partage pas de gradients, mais uniquement des trajectoires, avec une communication minimale.
La philosophie de Gensyn : le vrai point d’échelle du RL n’est pas la mise à jour des paramètres, mais l’exploration massive et diversifiée par Rollout. Pourquoi ne pas tout décentraliser cette partie ?
Nous Research : système fermé avec récompenses vérifiables
Nous Research construit un écosystème complet, avec notamment le modèle Hermes, l’environnement de vérification Atropos, l’optimisation distribuée DisTrO, et le réseau GPU décentralisé Psyche.
Atropos est particulièrement innovant : ce n’est pas seulement un environnement RL, mais aussi une « couche de récompense vérifiable ». Pour des tâches vérifiables (maths, code), Atropos vérifie directement la sortie, générant une récompense déterministe. Pour des résultats incertains, il fournit une interface standardisée RL.
Plus important, dans le réseau décentralisé Psyche, Atropos agit comme un « arbitre » pour vérifier si les mineurs ont réellement amélioré la stratégie. Cela résout le problème de confiance majeur en RL distribué.
Le système de Nous intègre RL comme un protocole central reliant données, environnement, modèles et infrastructure. Hermes évolue vers un « système vivant capable de s’auto-améliorer en permanence sur un réseau de puissance de calcul open source ».
Gradient Network : cadre Echo et architecture double groupe
Le cadre Echo de Gradient utilise une architecture à deux groupes : « groupe d’inférence + groupe d’entraînement », chacun fonctionnant indépendamment. Le groupe d’inférence, composé de GPU grand public et d’appareils edge, génère des trajectoires à haut débit ; le groupe d’entraînement se charge de la mise à jour des gradients et de la synchronisation des paramètres.
Echo propose deux modes de synchronisation : en série (pour la fraîcheur des trajectoires, mais moins efficace en calcul) et asynchrone (maximisant l’utilisation des appareils, avec plus de latence). Cette flexibilité permet d’adapter le système à diverses conditions réseau.
L’ensemble de la stack Gradient intègre la inférence distribuée (Parallax), l’entraînement RL (Echo), le réseau P2P (Lattica), la vérification (VeriLLM), formant peut-être la « pile d’IA ouverte la plus complète ».
Écosystème Bittensor avec le sous-réseau Grail
Bittensor, via son mécanisme de consensus Yuma, construit un vaste réseau de fonctions de récompense sparse et non stationnaires. Covenant AI a développé une pipeline complète allant du pré-entraînement à la post-formation RL.
Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :
Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.
Fraction AI : apprentissage par renforcement par compétition
Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».
Fraction AI remplace la récompense statique de RLHF par un environnement compétitif dynamique. Des agents s’affrontent dans différents espaces de tâches, avec un classement relatif et une évaluation par juge IA, formant un système de multi-agent en boucle continue.
L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.
L’essence de Fraction : un « moteur d’évolution homme-machine » où les utilisateurs orientent via le prompt, et les agents génèrent automatiquement une masse de préférences de haute qualité. La collecte de données n’est plus une tâche humaine coûteuse, mais une boucle commerciale auto-renforcée par micro-ajustements décentralisés.
Comparaison technique des six projets
Les trois avantages structuraux de l’apprentissage par renforcement × Web3
Malgré des angles d’approche différents, la convergence de l’apprentissage par renforcement et de Web3 repose sur une même logique paradigmique : découplage - vérification - incitation.
Premier : séparation physique du déploiement et de la formation
Le RL peut être découpé en deux phases : Rollout (génération de données) et Mise à jour (modification des poids). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se déploie idéalement sur un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième : vérifiabilité comme infrastructure
Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique formelle. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième : incitation programmable
Les tokens de Web3 peuvent directement récompenser contributeurs à la préférence, générateurs de trajets, validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. C’est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démontré la faisabilité du RL permissionless ; INTELLECT-3 (106B MoE) a entraîné un modèle phare sur GPU grand public (précision AIME 90.8%, GPQA 74.4%).
Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.
Gensyn : RL Swarm et cadre SAPO
Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.
Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :
Pas besoin de coordination centrale, tout fonctionne en auto-organisation. SAPO est un algorithme optimisé pour cet environnement asynchrone : il ne partage pas de gradients, mais uniquement des trajectoires, avec une communication minimale.
La philosophie de Gensyn : le vrai point d’échelle du RL n’est pas la mise à jour des paramètres, mais l’exploration massive et diversifiée par Rollout. Pourquoi ne pas tout décentraliser cette partie ?
Nous Research : système fermé avec récompenses vérifiables
Nous Research construit un écosystème complet, avec notamment le modèle Hermes, l’environnement de vérification Atropos, l’optimisation distribuée DisTrO, et le réseau GPU décentralisé Psyche.
Atropos est particulièrement innovant : ce n’est pas seulement un environnement RL, mais aussi une « couche de récompense vérifiable ». Pour des tâches vérifiables (maths, code), Atropos vérifie directement la sortie, générant une récompense déterministe. Pour des résultats incertains, il fournit une interface standardisée RL.
Plus important, dans le réseau décentralisé Psyche, Atropos agit comme un « arbitre » pour vérifier si les mineurs ont réellement amélioré la stratégie. Cela résout le problème de confiance majeur en RL distribué.
Le système de Nous intègre RL comme un protocole central reliant données, environnement, modèles et infrastructure. Hermes évolue vers un « système vivant capable de s’auto-améliorer en permanence sur un réseau de puissance de calcul open source ».
Gradient Network : cadre Echo et architecture double groupe
Le cadre Echo de Gradient utilise une architecture à deux groupes : « groupe d’inférence + groupe d’entraînement », chacun fonctionnant indépendamment. Le groupe d’inférence, composé de GPU grand public et d’appareils edge, génère des trajectoires à haut débit ; le groupe d’entraînement se charge de la mise à jour des gradients et de la synchronisation des paramètres.
Echo propose deux modes de synchronisation : en série (pour la fraîcheur des trajectoires, mais moins efficace en calcul) et asynchrone (maximisant l’utilisation des appareils, avec plus de latence). Cette flexibilité permet d’adapter le système à diverses conditions réseau.
L’ensemble de la stack Gradient intègre la inférence distribuée (Parallax), l’entraînement RL (Echo), le réseau P2P (Lattica), la vérification (VeriLLM), formant peut-être la « pile d’IA ouverte la plus complète ».
Écosystème Bittensor avec le sous-réseau Grail
Bittensor, via son mécanisme de consensus Yuma, construit un vaste réseau de fonctions de récompense sparse et non stationnaires. Covenant AI a développé une pipeline complète allant du pré-entraînement à la post-formation RL.
Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :
Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.
Fraction AI : apprentissage par renforcement par compétition
Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».
Fraction AI remplace la récompense statique de RLHF par un environnement compétitif dynamique. Des agents s’affrontent dans différents espaces de tâches, avec un classement relatif et une évaluation par juge IA, formant un système de multi-agent en boucle continue.
L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.
L’essence de Fraction : un « moteur d’évolution homme-machine » où les utilisateurs orientent via le prompt, et les agents génèrent automatiquement une masse de préférences de haute qualité. La collecte de données n’est plus une tâche humaine coûteuse, mais une boucle commerciale auto-renforcée par micro-ajustements décentralisés.
Comparaison technique des six projets
Les trois grands avantages structurels de l’apprentissage par renforcement × Web3
Bien que chaque projet ait une approche différente, leur logique sous-jacente converge vers un paradigme hautement cohérent : découplage - vérification - incitation.
Premier : séparation physique du déploiement et de la formation
Le RL peut être décomposé en deux phases : Rollout (génération de données) et Mise à jour (optimisation). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième : vérifiabilité comme infrastructure
Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième : incitation programmable
Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. Cela est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démontré la faisabilité du RL permissionless ; INTELLECT-3 (106B MoE) a entraîné un modèle phare sur GPU grand public (précision AIME 90.8%, GPQA 74.4%).
Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.
Gensyn : RL Swarm et cadre SAPO
Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.
Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :
Pas besoin de coordination centrale, tout fonctionne en auto-organisation. SAPO est un algorithme optimisé pour cet environnement asynchrone : il ne partage pas de gradients, mais uniquement des trajectoires, avec une communication minimale.
La philosophie de Gensyn : le vrai point d’échelle du RL n’est pas la mise à jour des paramètres, mais l’exploration massive et diversifiée par Rollout. Pourquoi ne pas tout décentraliser cette partie ?
Nous Research : système fermé avec récompenses vérifiables
Nous Research construit un écosystème complet, avec notamment le modèle Hermes, l’environnement de vérification Atropos, l’optimisation distribuée DisTrO, et le réseau GPU décentralisé Psyche.
Atropos est particulièrement innovant : ce n’est pas seulement un environnement RL, mais aussi une « couche de récompense vérifiable ». Pour des tâches vérifiables (maths, code), Atropos vérifie directement la sortie, générant une récompense déterministe. Pour des résultats incertains, il fournit une interface standardisée RL.
Plus important, dans le réseau décentralisé Psyche, Atropos agit comme un « arbitre » pour vérifier si les mineurs ont réellement amélioré la stratégie. Cela résout le problème de confiance majeur en RL distribué.
Le système de Nous intègre RL comme un protocole central reliant données, environnement, modèles et infrastructure. Hermes évolue vers un « système vivant capable de s’auto-améliorer en permanence sur un réseau de puissance de calcul open source ».
Gradient Network : cadre Echo et architecture double groupe
Le cadre Echo de Gradient utilise une architecture à deux groupes : « groupe d’inférence + groupe d’entraînement », chacun fonctionnant indépendamment. Le groupe d’inférence, composé de GPU grand public et d’appareils edge, génère des trajectoires à haut débit ; le groupe d’entraînement se charge de la mise à jour des gradients et de la synchronisation des paramètres.
Echo propose deux modes de synchronisation : en série (pour la fraîcheur des trajectoires, mais moins efficace en calcul) et asynchrone (maximisant l’utilisation des appareils, avec plus de latence). Cette flexibilité permet d’adapter le système à diverses conditions réseau.
L’ensemble de la stack Gradient intègre la inférence distribuée (Parallax), l’entraînement RL (Echo), le réseau P2P (Lattica), la vérification (VeriLLM), formant peut-être la « pile d’IA ouverte la plus complète ».
Écosystème Bittensor avec le sous-réseau Grail
Bittensor, via son mécanisme de consensus Yuma, construit un vaste réseau de fonctions de récompense sparse et non stationnaires. Covenant AI a développé une pipeline complète allant du pré-entraînement à la post-formation RL.
Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :
Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.
Fraction AI : apprentissage par renforcement par compétition
Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».
Fraction AI remplace la récompense statique de RLHF par un environnement compétitif dynamique. Des agents s’affrontent dans différents espaces de tâches, avec un classement relatif et une évaluation par juge IA, formant un système de multi-agent en boucle continue.
L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.
L’essence de Fraction : un « moteur d’évolution homme-machine » où les utilisateurs orientent via le prompt, et les agents génèrent automatiquement une masse de préférences de haute qualité. La collecte de données n’est plus une tâche humaine coûteuse, mais une boucle commerciale auto-renforcée par micro-ajustements décentralisés.
Comparaison technique des six projets
Les trois grands avantages structurels de l’apprentissage par renforcement × Web3
Malgré des approches différentes, la convergence de l’apprentissage par renforcement et de Web3 repose sur une même logique : découplage - vérification - incitation.
Premier : séparation physique du déploiement et de la formation
Le RL peut être décomposé en deux phases : Rollout (génération de données) et Mise à jour (optimisation). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.
Deuxième : vérifiabilité comme infrastructure
Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.
Troisième : incitation programmable
Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. Cela est beaucoup plus transparent et économique que le crowdsourcing traditionnel.
Six projets représentatifs de l’apprentissage par renforcement décentralisé
Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.
Prime Intellect : preuve technologique d’un système distribué asynchrone
Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.
Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.
Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.
Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démon