L'apprentissage par renforcement rencontre Web3 : pour commencer par la reconstruction des relations de production de l'IA

2026-01-19 09:47:24

Sous la double impulsion de la puissance de calcul et de l’incitation, l’apprentissage par renforcement est en train de remodeler la logique fondamentale de la formation d’IA décentralisée. Lorsque cette technologie « post-formation » rencontre le mécanisme d’incitation économique de la blockchain, une révolution paradigmique sur « comment l’intelligence est produite, alignée et la valeur distribuée » se prépare.

Pourquoi l’apprentissage par renforcement est-il soudainement devenu la nouvelle star de l’IA ?

L’an dernier, l’émergence de DeepSeek-R1 a permis de remettre sous les projecteurs une voie technologique longtemps négligée — l’apprentissage par renforcement (RL). Avant cela, l’industrie considérait généralement le RL comme un outil d’alignement de la valeur, principalement utilisé pour affiner le comportement des modèles. Mais aujourd’hui, il évolue pour devenir une voie centrale pour améliorer systématiquement la capacité de raisonnement de l’IA.

Du point de vue technologique, la formation moderne des grands modèles (LLM) se divise en trois phases, chacune jouant un rôle distinct dans le développement des capacités de l’IA :

Pré-entraînement : la base, construit un « worldview » du modèle via un apprentissage auto-supervisé sur des trillions de données. C’est la phase la plus coûteuse (80%-95% du budget), nécessitant des milliers de GPU H100 en synchronisation, et ne pouvant fonctionner que dans un environnement hautement centralisé, réservé aux géants de la tech.

Fine-tuning par instructions (SFT) : une étape intermédiaire pour injecter des capacités spécifiques à la tâche. Coûte relativement peu (5%-15%), mais requiert encore une synchronisation de gradients, limitant le potentiel de décentralisation.

Post-formation : la phase clé. Elle inclut RLHF, RLAIF, GRPO, etc., avec un coût de seulement 5%-10%, mais capable d’améliorer systématiquement la qualité du raisonnement. Plus important encore, elle supporte naturellement une exécution asynchrone et distribuée — les nœuds n’ont pas besoin de détenir l’intégralité des poids, pouvant rejoindre ou quitter le réseau dynamiquement. C’est précisément ce que Web3 recherche.

La structure tripartite de la collaboration en apprentissage par renforcement

Pour comprendre pourquoi le RL est adapté à la décentralisation, il faut d’abord saisir sa structure technique.

Un système complet de RL se compose de trois rôles principaux, dont la collaboration détermine si le système peut fonctionner sur un réseau ouvert :

Acteur (Actor / Rollout Workers) : responsable de l’inférence du modèle et de la génération de données. Il exécute des tâches selon la stratégie courante, produisant de nombreux trajets état-action-récompense. Ce processus est hautement parallèle, avec peu de communication entre nœuds, et peu sensible aux différences matérielles. En d’autres termes, un GPU grand public et une carte accélératrice d’entreprise peuvent fonctionner simultanément sans se ralentir mutuellement.

Évaluateurs (Evaluators) : notent les trajets générés. Ils utilisent un modèle de récompense gelé ou des règles pour attribuer une note à chaque trajectoire. Si le résultat de la tâche est vérifiable (ex. réponse à une question mathématique), l’évaluation peut être entièrement automatisée.

Apprenant (Learner / Trainer) : rassemble toutes les trajectoires, effectue la mise à jour par gradient, optimise les paramètres de la stratégie. C’est le seul rôle nécessitant une bande passante élevée et une synchronisation stricte, généralement centralisé pour assurer la stabilité de la convergence.

Ce triptyque présente une grande flexibilité : la génération de trajets peut être infiniment parallélisée, l’évaluation peut être distribuée, seule la mise à jour des paramètres requiert une synchronisation partielle. Ce qui est impossible avec une formation préliminaire classique.

De RLHF à RLAIF puis GRPO : l’évolution de la post-formation

Les techniques de post-formation évoluent rapidement, toutes dans une direction : moins coûteuses, plus évolutives, mieux adaptées à la décentralisation.

RLHF : la première solution, basée sur des préférences humaines annotées, entraînant un modèle de récompense, puis optimisant la stratégie via PPO. Coûteux, lent, difficile à faire évoluer à grande échelle.

RLAIF : remplace l’annotation humaine par un juge IA, automatisant la génération de préférences. OpenAI, Anthropic, DeepSeek s’orientent vers cette voie, car elle réduit les coûts et permet une itération rapide. Mais elle a ses limites — la récompense peut être manipulée ou « gamifiée ».

PRM (Modèle de récompense procédural) : ne se contente pas d’évaluer la réponse finale, mais attribue une note à chaque étape du raisonnement. C’est la clé pour DeepSeek-R1 et OpenAI o1 pour réaliser une « pensée lente ». En substance, il s’agit d’enseigner au modèle comment penser, plutôt que ce qu’il doit penser.

GRPO : le dernier optimiseur de DeepSeek, plus léger que PPO puisqu’il n’utilise pas de réseau Critic (économies de calcul), et plus stable dans des environnements asynchrones et à retardement multi-étapes.

Ce fil technologique partage une caractéristique : le coût diminue à chaque étape, la scalabilité augmente.

Pourquoi Web3 et l’apprentissage par renforcement forment-ils une paire naturelle ?

De prime abord, Web3 — blockchain + économie d’incitation — et RL — algorithme d’optimisation IA — semblent sans rapport. Mais en profondeur, ils sont tous deux des « systèmes à incitation » :

Le RL dépend d’un signal de récompense pour optimiser la stratégie
La blockchain utilise une incitation économique pour coordonner les participants

Cette isomorphie fait que les besoins fondamentaux du RL — échantillonnage massif et hétérogène, attribution de récompenses, vérification des résultats — correspondent parfaitement aux avantages structurels de Web3.

Premier niveau : séparation du déploiement et de la formation

Le RL peut être découpé en deux phases : Rollout (génération de données) et Mise à jour (modification des poids). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.

Deuxième niveau : vérifiabilité

Dans un réseau ouvert, l’honnêteté ne peut être supposée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.

Troisième niveau : programmabilité de l’incitation

Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. C’est beaucoup plus transparent et économique que le crowdsourcing traditionnel.

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.

Prime Intellect : preuve technologique d’un système distribué asynchrone

Prime Intellect vise à construire un marché mondial de puissance de calcul décentralisée, avec le cœur du système le cadre prime-rl — un moteur RL conçu pour des environnements massivement asynchrones et décentralisés.

Contrairement à PPO, qui exige une synchronisation totale, prime-rl décompose complètement cette contrainte : les acteurs et les apprenants sont totalement découplés, les acteurs pouvant rejoindre ou quitter à tout moment, sans attendre.

Techniquement, prime-rl intègre le moteur d’inférence haute performance vLLM, la partition de paramètres FSDP2, et le MoE pour la sparsité. Cela permet d’entraîner efficacement des modèles de plusieurs centaines de milliards de paramètres sur des clusters GPU hétérogènes.

Les modèles de la série INTELLECT de Prime Intellect ont validé cette stack technologique : INTELLECT-1 (10B) a atteint 98% d’utilisation du calcul dans un réseau hétérogène mondial, avec moins de 2% de coût en communication ; INTELLECT-2 (32B) a démontré la faisabilité du RL permissionless ; INTELLECT-3 (106B MoE) a entraîné un modèle phare sur GPU grand public (précision AIME 90.8%, GPQA 74.4%).

Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.

Gensyn : RL Swarm et cadre SAPO

Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.

Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :

Solvers génèrent des trajectoires
Proposers créent dynamiquement des tâches
Évaluateurs notent

Pas besoin de coordination centrale, tout fonctionne en auto-organisation. SAPO est un algorithme optimisé pour cet environnement asynchrone : il ne partage pas de gradients, mais uniquement des trajectoires, avec une communication minimale.

La philosophie de Gensyn : le vrai point d’échelle du RL n’est pas la mise à jour des paramètres, mais l’exploration massive et diversifiée par Rollout. Pourquoi ne pas tout décentraliser cette partie ?

Nous Research : système fermé avec récompenses vérifiables

Nous Research construit un écosystème complet, avec notamment le modèle Hermes, l’environnement de vérification Atropos, l’optimisation distribuée DisTrO, et le réseau GPU décentralisé Psyche.

Atropos est particulièrement innovant : ce n’est pas seulement un environnement RL, mais aussi une « couche de récompense vérifiable ». Pour des tâches vérifiables (maths, code), Atropos vérifie directement la sortie, générant une récompense déterministe. Pour des résultats incertains, il fournit une interface standardisée RL.

Plus important, dans le réseau décentralisé Psyche, Atropos agit comme un « arbitre » pour vérifier si les mineurs ont réellement amélioré la stratégie. Cela résout le problème de confiance majeur en RL distribué.

Le système de Nous intègre RL comme un protocole central reliant données, environnement, modèles et infrastructure. Hermes évolue vers un « système vivant capable de s’auto-améliorer en permanence sur un réseau de puissance de calcul open source ».

Gradient Network : cadre Echo et architecture double groupe

Le cadre Echo de Gradient utilise une architecture à deux groupes : « groupe d’inférence + groupe d’entraînement », chacun fonctionnant indépendamment. Le groupe d’inférence, composé de GPU grand public et d’appareils edge, génère des trajectoires à haut débit ; le groupe d’entraînement se charge de la mise à jour des gradients et de la synchronisation des paramètres.

Echo propose deux modes de synchronisation : en série (pour la fraîcheur des trajectoires, mais moins efficace en calcul) et asynchrone (maximisant l’utilisation des appareils, avec plus de latence). Cette flexibilité permet d’adapter le système à diverses conditions réseau.

L’ensemble de la stack Gradient intègre la inférence distribuée (Parallax), l’entraînement RL (Echo), le réseau P2P (Lattica), la vérification (VeriLLM), formant peut-être la « pile d’IA ouverte la plus complète ».

Écosystème Bittensor avec le sous-réseau Grail

Bittensor, via son mécanisme de consensus Yuma, construit un vaste réseau de fonctions de récompense sparse et non stationnaires. Covenant AI a développé une pipeline complète allant du pré-entraînement à la post-formation RL.

Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :

Utilisation de drand pour générer des défis aléatoires (SAT, GSM8K), empêchant la pré-calculabilité
Utilisation de PRF et de commitments pour échantillonner et vérifier à faible coût
Lier l’inférence aux empreintes des poids du modèle, pour détecter toute substitution

Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.

Fraction AI : apprentissage par renforcement par compétition

Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».

Fraction AI remplace la récompense statique de RLHF par un environnement compétitif dynamique. Des agents s’affrontent dans différents espaces de tâches, avec un classement relatif et une évaluation par juge IA, formant un système de multi-agent en boucle continue.

L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.

L’essence de Fraction : un « moteur d’évolution homme-machine » où les utilisateurs orientent via le prompt, et les agents génèrent automatiquement une masse de préférences de haute qualité. La collecte de données n’est plus une tâche humaine coûteuse, mais une boucle commerciale auto-renforcée par micro-ajustements décentralisés.

Comparaison technique des six projets

Dimension	Prime Intellect	Gensyn	Nous Research	Gradient	Grail	Fraction AI
Cadre central	prime-rl	RL Swarm + SAPO	DisTrO + Psyche	Echo	Vérification cryptographique	RLFC compétition
Coût de communication	très faible (optimisation bande passante)	très faible (pas de partage de gradients)	très faible (compression de gradients)	moyen (synchronisation double groupe)	très faible (échantillonnage + vérification)	faible (asynchrone, compétition)
Vérifiabilité	empreinte TopLoc	PoL + Verde	récompense Atropos	VeriLLM	défi cryptographique	classement par compétition
Mécanisme d’incitation	paiement selon contribution	récompenses en tokens	staking + slashing	tokens réseau	attribution TAO	frais d’entrée dans Spaces
Plus grand paramètre	106B (MoE)	100B+	70B+	à déterminer	1.5B (test)	fine-tuning LLM
Maturité	avancée (déjà mainnet)	intermédiaire (test)	intermédiaire (R&D)	intermédiaire (dev)	faible (pas mainnet)	faible (early stage)

Les trois avantages structuraux de l’apprentissage par renforcement × Web3

Malgré des angles d’approche différents, la convergence de l’apprentissage par renforcement et de Web3 repose sur une même logique paradigmique : découplage - vérification - incitation.

Premier : séparation physique du déploiement et de la formation

Le RL peut être découpé en deux phases : Rollout (génération de données) et Mise à jour (modification des poids). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se déploie idéalement sur un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.

Deuxième : vérifiabilité comme infrastructure

Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique formelle. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.

Troisième : incitation programmable

Les tokens de Web3 peuvent directement récompenser contributeurs à la préférence, générateurs de trajets, validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. C’est beaucoup plus transparent et économique que le crowdsourcing traditionnel.

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.

Prime Intellect : preuve technologique d’un système distribué asynchrone

Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.

Gensyn : RL Swarm et cadre SAPO

Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.

Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :

Solvers génèrent des trajectoires
Proposers créent dynamiquement des tâches
Évaluateurs notent

Nous Research : système fermé avec récompenses vérifiables

Gradient Network : cadre Echo et architecture double groupe

Écosystème Bittensor avec le sous-réseau Grail

Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :

Utilisation de drand pour générer des défis aléatoires (SAT, GSM8K), empêchant la pré-calculabilité
Utilisation de PRF et de commitments pour échantillonner et vérifier à faible coût
Lier l’inférence aux empreintes des poids du modèle, pour détecter toute substitution

Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.

Fraction AI : apprentissage par renforcement par compétition

Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».

L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.

Comparaison technique des six projets

Dimension	Prime Intellect	Gensyn	Nous Research	Gradient	Grail	Fraction AI
Cadre central	prime-rl	RL Swarm + SAPO	DisTrO + Psyche	Echo	Vérification cryptographique	RLFC compétition
Coût de communication	très faible (optimisation bande passante)	très faible (pas de partage de gradients)	très faible (compression de gradients)	moyen (synchronisation double groupe)	très faible (échantillonnage + vérification)	faible (asynchrone, compétition)
Vérifiabilité	empreinte TopLoc	PoL + Verde	récompense Atropos	VeriLLM	défi cryptographique	classement par compétition
Mécanisme d’incitation	paiement selon contribution	récompenses en tokens	staking + slashing	tokens réseau	attribution TAO	frais d’entrée dans Spaces
Plus grand paramètre	106B MoE	100B+	70B+	à déterminer	1.5B test	fine-tuning LLM
Maturité	avancée (déjà mainnet)	intermédiaire (test)	intermédiaire (R&D)	intermédiaire (dev)	faible (pas mainnet)	faible (early stage)

Les trois grands avantages structurels de l’apprentissage par renforcement × Web3

Bien que chaque projet ait une approche différente, leur logique sous-jacente converge vers un paradigme hautement cohérent : découplage - vérification - incitation.

Premier : séparation physique du déploiement et de la formation

Le RL peut être décomposé en deux phases : Rollout (génération de données) et Mise à jour (optimisation). Le Rollout, avec sa communication peu fréquente et hautement parallèle, se prête à un réseau mondial de GPU grand public ; la mise à jour, elle, nécessite un nœud centralisé à haute bande passante. Ce modèle « asynchrone, léger en synchronisation » est la configuration standard des réseaux décentralisés.

Deuxième : vérifiabilité comme infrastructure

Dans un réseau ouvert, l’honnêteté ne peut être présumée. La vérification doit passer par la cryptographie ou la logique. Heureusement, beaucoup de résultats en RL sont vérifiables : le code compile-t-il ? La réponse à une question mathématique est-elle correcte ? Qui a gagné une partie ? Cela permet un « Proof-of-Learning » — vérifier que le nœud a réellement effectué le raisonnement, et pas simplement falsifié.

Troisième : incitation programmable

Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. Cela est beaucoup plus transparent et économique que le crowdsourcing traditionnel.

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.

Prime Intellect : preuve technologique d’un système distribué asynchrone

Ces trois itérations prouvent que le RL décentralisé devient une réalité concrète.

Gensyn : RL Swarm et cadre SAPO

Gensyn adopte une approche plus radicale — pas seulement disperser la puissance, mais décentraliser tout le processus d’apprentissage collaboratif.

Son innovation centrale : RL Swarm et SAPO (Swarm Sampling Policy Optimization). RL Swarm reformule le RL comme un cycle P2P « génération-évaluation-mise à jour » :

Solvers génèrent des trajectoires
Proposers créent dynamiquement des tâches
Évaluateurs notent

Nous Research : système fermé avec récompenses vérifiables

Gradient Network : cadre Echo et architecture double groupe

Écosystème Bittensor avec le sous-réseau Grail

Le sous-réseau Grail est une « couche d’inférence vérifiable » pour le RL. Son innovation : prouver cryptographiquement la véracité de chaque Rollout :

Utilisation de drand pour générer des défis aléatoires (SAT, GSM8K), empêchant la pré-calculabilité
Utilisation de PRF et de commitments pour échantillonner et vérifier à faible coût
Lier l’inférence aux empreintes des poids du modèle, pour détecter toute substitution

Les expériences montrent que Grail a permis d’augmenter la précision de Qwen2.5-1.5B sur MATH de 12.7% à 47.6%, empêchant la fraude tout en renforçant la capacité du modèle.

Fraction AI : apprentissage par renforcement par compétition

Si les projets précédents se concentrent sur « comment disperser la formation », Fraction AI s’intéresse à « comment apprendre par compétition ».

L’architecture comprend : Agents (finement QLoRA), espaces de tâches isolés, juges IA décentralisés, et couche de validation Proof-of-Learning.

Comparaison technique des six projets

Dimension	Prime Intellect	Gensyn	Nous Research	Gradient	Grail	Fraction AI
Cadre central	prime-rl	RL Swarm + SAPO	DisTrO + Psyche	Echo	Vérification cryptographique	RLFC compétition
Coût de communication	très faible (optimisation bande passante)	très faible (pas de partage de gradients)	très faible (compression de gradients)	moyen (synchronisation double groupe)	très faible (échantillonnage + vérification)	faible (asynchrone, compétition)
Vérifiabilité	empreinte TopLoc	PoL + Verde	récompense Atropos	VeriLLM	défi cryptographique	classement par compétition
Mécanisme d’incitation	paiement selon contribution	récompenses en tokens	staking + slashing	tokens réseau	attribution TAO	frais d’entrée dans Spaces
Plus grand paramètre	106B MoE	100B+	70B+	à déterminer	1.5B test	fine-tuning LLM
Maturité	avancée (déjà mainnet)	intermédiaire (test)	intermédiaire (R&D)	intermédiaire (dev)	faible (pas mainnet)	faible (early stage)

Les trois grands avantages structurels de l’apprentissage par renforcement × Web3

Malgré des approches différentes, la convergence de l’apprentissage par renforcement et de Web3 repose sur une même logique : découplage - vérification - incitation.

Premier : séparation physique du déploiement et de la formation

Deuxième : vérifiabilité comme infrastructure

Troisième : incitation programmable

Les tokens de Web3 peuvent directement récompenser les contributeurs à la préférence, les générateurs de trajets, et les validateurs. La mise en jeu (staking) et la pénalisation (slashing) renforcent la sincérité des participants. Cela est beaucoup plus transparent et économique que le crowdsourcing traditionnel.

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Plusieurs équipes expérimentent à cette intersection. Leur approche diffère, mais la logique sous-jacente est étonnamment cohérente.

Prime Intellect : preuve technologique d’un système distribué asynchrone

DEEPSEEK-0,84%

PRIME-3,11%

BZZ-2,03%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Sujets populaires
Afficher plus
#
TariffTensionsHitCryptoMarket
12K Popularité
#
CryptoMarketPullback
330.74K Popularité
#
GateLaunchpadIMU
41.34K Popularité
#
GoldandSilverHitNewHighs
4.73K Popularité
#
WarshLeadsFedChairRace
4.08K Popularité

Hot Gate Fun
Afficher plus

1
完美世界
荒天帝
MC:$0.1Détenteurs:1
0.00%
2
吉祥富贵
吉祥富贵
MC:$3.51KDétenteurs:2
0.00%
3
GWT
ainagenvhai
MC:$3.44KDétenteurs:1
0.00%
4
horse
马年纪念币
MC:$3.44KDétenteurs:1
0.00%
5
rsrx
人生如戏
MC:$3.45KDétenteurs:1
0.00%

Épingler

L'apprentissage par renforcement rencontre Web3 : pour commencer par la reconstruction des relations de production de l'IA

Pourquoi l’apprentissage par renforcement est-il soudainement devenu la nouvelle star de l’IA ?

La structure tripartite de la collaboration en apprentissage par renforcement

De RLHF à RLAIF puis GRPO : l’évolution de la post-formation

Pourquoi Web3 et l’apprentissage par renforcement forment-ils une paire naturelle ?

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Prime Intellect : preuve technologique d’un système distribué asynchrone

Gensyn : RL Swarm et cadre SAPO

Nous Research : système fermé avec récompenses vérifiables

Gradient Network : cadre Echo et architecture double groupe

Écosystème Bittensor avec le sous-réseau Grail

Fraction AI : apprentissage par renforcement par compétition

Comparaison technique des six projets

Les trois avantages structuraux de l’apprentissage par renforcement × Web3

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Comparaison technique des six projets

Les trois grands avantages structurels de l’apprentissage par renforcement × Web3

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Comparaison technique des six projets

Les trois grands avantages structurels de l’apprentissage par renforcement × Web3

Six projets représentatifs de l’apprentissage par renforcement décentralisé

Sujets populaires

TariffTensionsHitCryptoMarket

CryptoMarketPullback

GateLaunchpadIMU

GoldandSilverHitNewHighs

WarshLeadsFedChairRace

Hot Gate Fun

完美世界

荒天帝

吉祥富贵

吉祥富贵

GWT

ainagenvhai

horse

马年纪念币

rsrx

人生如戏

Épingler