En 2026, quelle sera la consommation la plus « luxueuse » de l’humanité au travail ? La réponse n’est pas l’achat d’un ordinateur hautes performances ou l’acquisition de quelques vêtements élégants, mais la capacité d’utiliser sans restriction ni coût l’outil d’IA le plus avancé au monde.

Cela signifie que vous n’avez pas besoin de vous creuser la tête pour optimiser vos prompts par crainte de voir apparaître un message « votre quota gratuit est épuisé aujourd’hui » ; ni de comparer à plusieurs reprises, incapable de se résoudre à laisser de côté Claude (un grand modèle de langage développé par la société américaine d’IA Anthropic), pour confier des tâches moins importantes à un modèle plus bon marché et plus léger.

L’IA est bien sûr pratique, mais chaque utilisation engendre un coût, la consommation de tokens étant si chère que vous en devenez presque incapable de l’utiliser. La minutie, la prudence, sont devenues l’état le plus réel des « bœufs » de l’IA aujourd’hui.

Cela rappelle l’époque d’il y a vingt ans, celle de la connexion dial-up. À cette époque, la bande passante était rare et coûteuse, et les développeurs, pour économiser la consommation de bande passante des sites web, composaient au maximum les images, simplifiaient le code, et n’osaient presque pas uploader de vidéos. Les startups dans le domaine vidéo comme Tudou étaient rares, la consommation de bande passante liée aux vidéos représentant la majeure partie des coûts d’exploitation des sites.

Une scène qui se répète.

Dans la chaîne industrielle de l’IA, la puissance de calcul circule comme de l’eau, de haut en bas. Partant des GPU (processeurs graphiques) et des centres de données en amont, via les fournisseurs de cloud et les fabricants de modèles, encapsulés sous forme d’API (interfaces de programmation d’applications), elle finit par arriver aux développeurs et aux utilisateurs ordinaires, se traduisant par des appels concrets, des tokens facturables. Elle semble intangible, mais à chaque étape, un coût précis est associé : amortissement des GPU, consommation électrique, stockage à haute bande passante, qui finissent tous par s’additionner en factures.

Aujourd’hui, cette tuyauterie commence à se congestionner. D’un côté, la demande explose, avec des scénarios complexes comme la multimodalité ou les agents intelligents, multipliant par mille la consommation de tokens ; de l’autre, l’offre n’est pas encore désolidarisée, avec des limites physiques pour la construction des GPU, HBM (mémoire à haute bande passante), alimentation électrique et centres de données, et un taux d’utilisation des GPU encore faible. La sagesse a un prix : si la croissance explosive a rendu le coût par token plus abordable, le montant dépensé pour l’utiliser ne cesse d’augmenter.

Les prix augmentent par étapes. Sur le haut de la chaîne, GPU chers mais peu disponibles, la puissance de calcul est rare, puis les fournisseurs de cloud comme Amazon, Google, Baidu, Alibaba ajustent leurs prix, augmentant les coûts de certains services liés à l’IA au cours du dernier trimestre, tandis que les fabricants de modèles terminent leur cycle de subventions. Tencent, Alibaba, etc., arrêtent progressivement les tests gratuits, augmentant le prix des appels API, Tencent par exemple, avec son grand modèle hybride, a vu ses prix augmenter jusqu’à 463 %.

Ces hausses de prix côté modèles et applications font que la puissance de calcul n’est plus une notion abstraite dans la compétition entre géants, mais devient une leçon payante pour chaque personne ordinaire, sous forme de tokens. Comme à l’époque du trafic, facturé en MB (unité de données mobiles), le propriétaire de compte peut, à tout moment, se retrouver en surcharge et coupé.

Le concept de « Token économie » proposé récemment par Jensen Huang considère que la capacité de raisonnement est devenue la charge de travail la plus centrale de l’IA, et que le token est désormais une nouvelle marchandise — standardisée, mesurable, échangeable. Ainsi, le token, qui était un sous-produit technique de l’entraînement des modèles, évolue pour devenir un élément clé de la nouvelle économie numérique.

Selon Huang, le « Token » en tant que marchandise a une qualité variable. Du niveau gratuit au niveau premium, le prix de chaque million de tokens varie de 0 à 150 dollars. Les tokens à faible latence et à haute interactivité (dialogues en temps réel, conduite autonome) nécessitent une puissance de calcul coûteuse, donc leur prix est élevé ; ceux à haut débit, pour le traitement hors ligne (inférence à grande échelle, traitement par lots), peu sensibles à la latence, peuvent être produits avec des ressources moins chères, donc leur prix est plus bas.

Les tokens, en tant que « marchandise », ont déjà une stratification de valeur. Mais qu’en est-il de ceux qui les utilisent ? Peut-être que, dans le futur, la définition du « marché de masse » ne se limitera plus à la capacité de consommer des biens physiques.

Les utilisateurs d’IA, sous l’emprise de l’anxiété

« Ne suis-je pas un membre précieux ? » Le soir du 11 mars, Su Yu regardait l’écran de son ordinateur, agacée par la fenêtre contextuelle qui s’affichait. Elle lui indiquait que sa consommation de tokens pour la semaine avait atteint 90 % de la limite, et que, une fois cette limite atteinte, l’utilisation des modèles concernés serait suspendue jusqu’à la mise à jour du quota la semaine suivante.

Su Yu est doctorante dans une université, en train de préparer sa thèse de fin d’études. Depuis trois ans, Gemini de Google et ChatGPT d’OpenAI ont été ses partenaires privilégiés, et elle est une abonnée fidèle à ces deux « ouvriers de l’IA ». En février, Anthropic a également intégré Claude dans son équipe, qui est rapidement devenu son modèle de confiance.

« Claude est tellement pratique, avec une forte fonction d’outil. » dit Su Yu. Elle fait utiliser plusieurs applications d’IA pour élaborer et concevoir ses idées de recherche. La logique de réponse de ChatGPT n’est pas assez rigoureuse, Gemini est trop flamboyant et flatteur, seul Claude, comme un conseiller professionnel et objectif, lit attentivement les besoins du client avant de produire une proposition réellement utilisable et inspirante.

Après plus d’un mois d’utilisation gratuite, Su Yu a payé environ 180 RMB pour un abonnement mensuel à Claude. Comparé à Gemini ou ChatGPT, la particularité de Claude est qu’il impose aussi des limites quotidiennes et hebdomadaires de consommation de tokens pour ses membres. Cela se comprend : selon le classement mondial des modèles de grande taille, LMArena, au 20 mars, Claude-Opus-4-6-thinking est classé premier mondial.

Mais Su Yu n’a jamais ressenti une telle restriction directe. La première fois que la limite de Claude a été atteinte, c’était un mercredi. « J’avais compris la moitié de la théorie de l’ancrage, puis je ne pouvais plus l’utiliser. » Elle a ressenti une sorte de « stagnation académique ». Habituée à l’aide de Claude, elle a du mal à revenir à ses méthodes de recherche initiales. Elle a essayé de faire « à la main », en feuilletant les livres de théorie originaux, mais l’efficacité était très faible. Certains documents traduits ne lui semblaient pas entièrement fiables, « je dois quand même attendre que Claude soit de nouveau disponible pour vérifier. » Quatre jours d’attente, elle a vécu une période d’angoisse.

La limitation de Claude rend Su Yu très anxieuse. Un mardi, elle a envoyé une capture d’écran du backend de Claude, montrant que sa limite hebdomadaire était déjà utilisée à 45 %. « Il ne reste que deux jours à cette semaine ! J’ai déjà été très économe, je ne discute qu’un seul sujet de thèse par jour, et ça a déjà atteint la limite ! » Elle était presque au bord de la crise. Qui a dit que l’IA ne pouvait pas remplacer l’humain ? Cet IA est presque plus difficile à gérer que son superviseur.

● Capture d’écran du backend de Claude de Su Yu. Source : interviewée

Elle a pris l’habitude de vérifier le backend après chaque question, de peur de manquer de tokens. Elle se souvient même avoir discuté avec Claude comme avec un professeur, pour lui demander de l’aider à faire une présentation PowerPoint, ce qu’elle considère comme une perte de temps et d’énergie.

Cette prudence dans l’utilisation des « modèles pratiques » devient de plus en plus courante. Un entrepreneur dans l’industrie du film et de l’IA m’a confié que, lorsqu’il utilise le modèle vidéo d’Bytedance, « Ji Meng », il intègre aussi d’autres API de fabricants de modèles, « les modèles performants sont effectivement plus chers, on doit jongler entre différents modèles pour équilibrer les coûts. »

Récemment, Ji Meng a réduit le quota de points pour ses abonnés. Il trouve cela normal : « Le côté grand public est déjà subventionné, on reprend juste une partie. » Mais il s’inquiète aussi pour sa propre situation, en soupirant : « Maintenant, on ne peut plus vraiment se permettre de l’utiliser. » La hausse des coûts de l’IA peut parfois couper la vie des petites startups.

Les utilisateurs finaux s’inquiètent pour leurs tokens, et les fabricants de modèles pour leurs coûts de puissance de calcul.

Pour expliquer la croissance explosive du volume d’appels de tokens, le académicien chinois Wang Jian a fait une analogie avec le développement de l’électricité : dans ses débuts, l’IA ressemblait à « allumer une lampe », avec une consommation électrique limitée. Mais la nouvelle génération d’applications, représentée par OpenClaw (un agent intelligent), ressemble à « allumer un climatiseur », nécessitant de plus en plus d’électricité.

Cependant, Wang Jian insiste sur le fait que cette croissance ne signifie pas seulement une généralisation des applications, mais aussi une baisse du coût unitaire du token. « Si le prix de l’électricité ne baisse pas, le peuple ne pourra pas se permettre un climatiseur. »

Mais par rapport à la simple interaction question-réponse du début, de plus en plus de tâches sont désormais accomplies par des agents. Les modèles doivent décomposer les problèmes, appeler des outils, écrire du code, déboguer, puis corriger. Une demande apparemment simple peut en réalité nécessiter plusieurs tours de raisonnement et de multiples appels API, ce qui amplifie exponentiellement la consommation de tokens. Bien que le prix unitaire ait baissé, le coût total en puissance de calcul est plus élevé.

« La taille du modèle a augmenté, le coût de raisonnement aussi, et nous espérons le ramener à une valeur commerciale normale. La compétition à bas prix à long terme n’est pas favorable au développement de l’industrie, c’est aussi une considération pour nous. » dit Zhang Peng, PDG de Zhipu. Ces deux derniers mois, Zhipu a augmenté trois fois le prix de ses modèles de la série GLM (modèles de langage développés par Zhipu), certains atteignant presque le niveau de prix des modèles de pointe internationaux.

Une autre préoccupation de Zhang Peng est : « Le plus grand problème dans les 12 prochains mois sera probablement la puissance de calcul. Toutes les technologies, y compris les cadres d’agents, ont permis à la créativité et à l’efficacité de beaucoup d’individus d’augmenter de 10 fois. Mais la condition préalable, c’est que tout le monde puisse l’utiliser, sinon un problème pourrait faire que l’agent réfléchisse une demi-heure sans me donner de réponse. »

La circulation de la puissance de calcul, les coûts qui s’accumulent

Selon le calcul de Claude, 100 tokens équivalent à environ 75 mots anglais ou 50 caractères chinois, et le prix de sortie d’un token est cinq fois celui de l’entrée — c’est une conversion simple. En d’autres termes, chaque réponse de l’IA doit être soigneusement réfléchie, le traitement en arrière-plan, la recherche, la génération, et les erreurs dues aux hallucinations du modèle, tout cela consomme des tokens, qui finissent par se transformer en factures en argent réel.

Lin Zhijia, fondateur de l’ère de l’intelligence artificielle AGI, a fait un calcul. Il possède quatre « homards » (crustacés), certains déployés localement, d’autres dans le cloud. Pour le déploiement cloud, il achète un abonnement Coding Plan (service d’abonnement à la programmation IA) pour environ 30-40 RMB par mois. À 9 jours de la fin de mars, sa consommation de tokens représentait moins de 10 % du quota. En tant que professionnel des médias, ses besoins en tokens ne sont pas très élevés.

Mais facturer selon les tokens n’est pas très rentable. « Si je lui demande chaque matin à 9h de m’envoyer une nouvelle, la consommation de tokens coûte environ 0,9 RMB, pour 30 jours, ça fait une vingtaine de yuans, ce qui est à peu près le prix de l’abonnement Coding Plan. Parfois, il y a aussi des pertes, des mises à jour de modèles, et la mise à jour seule peut coûter 3 ou 4 RMB en tokens. »

Peser entre différentes méthodes de facturation est devenu une routine pour les utilisateurs intensifs, et chaque centime dépensé en tokens revient finalement à une seule chose : la puissance de calcul, ainsi que le coût amorti des GPU et la consommation électrique des centres de données.

Les GPU sont le point de départ, la disponibilité des puces haut de gamme détermine la limite du système. « À part les machines de réserve réservées à certains clients, tout le reste est vendu, il n’en reste plus une seule. » dit Liu Hua, vice-directeur du centre technique d’UCloud.

Sous les GPU, il faut aussi construire des centres de données, des réseaux et des systèmes de stockage — une interconnexion à haute vitesse, une transmission à faible latence, rien de standard « plug-and-play ». Liu Hua mentionne que, rien que pour le réseau et le stockage, le coût peut représenter environ 20 % du coût total de puissance de calcul.

Au niveau inférieur, les fabricants de modèles et les fournisseurs d’API déploient leurs grands modèles sur ces infrastructures, les encapsulant en interfaces standardisées pour que les développeurs puissent les appeler. Ces deux dernières années, ces rôles ont commencé à se chevaucher : les fournisseurs de cloud vendent à la fois la puissance de calcul et proposent des API de modèles, devenant le centre de connexion entre GPU, modèles et développeurs.

● Schéma illustrant la circulation de la puissance de calcul. Source : généré par IA

La puissance de calcul s’infiltre ainsi couche après couche, la tendance la plus récente étant du côté de la demande industrielle. « Avant, la majorité de l’IA était payée par les entreprises, maintenant, le paiement par les particuliers devient de plus en plus courant. » dit Lin Zhijia. Les modèles sont encapsulés en API, l’accès est simplifié, la barrière à l’entrée abaissée, et même les développeurs amateurs ou les utilisateurs ordinaires peuvent directement invoquer la puissance de calcul sous-jacente. « Aujourd’hui, on peut tout simplement faire défiler les réseaux sociaux pour voir comment ça marche. »

La puissance de calcul devient même une tendance de vente au détail. Avant 2024, certains fournisseurs de cloud commenceront à lancer des « cartes journalières » GPU, des cloud légers, voire des produits « déployés en un clic ». Par exemple, UCloud propose un forfait d’essai à 6,9 RMB, qui ressemble à un ticket d’entrée, regroupant la configuration complexe et la gestion de la puissance de calcul, permettant aux utilisateurs de tester à très faible coût. « Beaucoup de gens viennent surtout pour tester ou défricher, » dit Liu Hua, « tout le monde est un peu anxieux, de peur d’être en retard. »

Mais la réduction des barrières ne signifie pas une baisse des coûts. Selon Liu Hua, « en utilisant une analogie avec le développement internet, le coût de la puissance de calcul est encore très élevé, en phase de démarrage. » C’est pourquoi les développeurs doivent faire preuve de prudence, et les plateformes n’osent pas facilement augmenter la capacité d’appel.

Même les grands acteurs font des choix. OpenAI a récemment arrêté le projet de génération vidéo Sora, ce que certains analystes interprètent comme une évaluation entre puissance de calcul et retour sur investissement. En période de ressources limitées, ils privilégient les modèles et activités les plus essentiels. Alibaba, Tencent, ByteDance, etc., ont récemment ajusté leurs stratégies IA, en concentrant leurs ressources sur l’essentiel.

Tous prennent conscience d’une chose : à l’avenir, ce ne sera pas la simple capacité de calcul qui comptera, mais le taux d’utilisation. La pénurie de puissance de calcul entraînera une longue période de pluie fine dans l’ère de l’IA, et chaque acteur de cette époque devra faire face à cette humidité.

Ce qui se passe lorsque la puissance de calcul circule vers la fin de la chaîne

Su Yu essaie de répartir et de gérer ses ressources de calcul.

Elle classe ses modèles en niveaux : ChatGPT pour rédiger des documents, des synthèses, Gemini pour faire des dessins et gérer les détails linguistiques, Claude pour les tâches les plus critiques, comme la conception de cadres de recherche, la réflexion stratégique, l’analyse de textes longs. Cela lui permet d’optimiser à la fois son efficacité et ses finances.

Par exemple, elle traite récemment un lot d’interviews, en demandant d’abord à Claude de fournir un cadre d’analyse, puis en « confiant » ce cadre à Gemini pour une première codification. « Je fais plus confiance à Claude pour la guidance, mais pour les détails, je préfère des modèles moins chers. » Si Claude n’avait pas de limite, elle arrêterait même d’utiliser Gemini.

Ce n’est pas une publicité pour Claude, mais Su Yu pense que cette application correspond mieux à ses besoins. La rareté des modèles pratiques, et la ressource limitée, font que l’on ne l’utilise qu’aux endroits clés.

Pour économiser davantage, beaucoup d’utilisateurs, comme Su Yu, commencent à réduire leurs coûts dans les détails.

Sur les réseaux sociaux, il était populaire de converser avec l’IA en style classique, car cela réduit la longueur des textes, donc la consommation de tokens. Certains pensent aussi que dire « bonjour » ou « merci » à l’IA est une forme de gaspillage inutile de ressources, puisque l’IA n’a pas besoin de valeur émotionnelle.

En réalité, beaucoup de gaspillage ne dépend pas seulement de l’utilisateur, mais aussi du mode d’intégration et d’exécution du modèle.

Récemment, Luo Fuli, responsable de l’équipe du grand modèle MiMo, a déclaré : « Je ne peux pas calculer précisément la perte causée par l’intégration de tiers, mais j’ai vu de près la gestion du contexte dans OpenClaw, c’est catastrophique. Lors d’une requête unique, il déclenche plusieurs appels à des outils à faible valeur, chaque étape étant envoyée comme une requête API indépendante, avec une fenêtre de contexte souvent dépassant 100 000 tokens. Le nombre réel de requêtes est plusieurs fois supérieur à celui du cadre natif Claude Code. En termes de prix API, le coût réel est environ plusieurs dizaines de fois supérieur au prix d’abonnement. »

Revenant à la question de l’économie de tokens, les utilisateurs qui cherchent à économiser activement ne peuvent pas simplement laisser faire, et cette « contrainte » basée sur la réduction des coûts, comme OpenAI, doit faire face à une contradiction : en 2025, ses revenus atteindront 4,3 milliards de dollars, mais ses pertes nettes seront de 13,5 milliards, ce qui signifie qu’à chaque dollar gagné, il en perd trois. La majeure partie de cette perte provient des investissements en puissance de calcul.

Aujourd’hui, la puissance de calcul n’est plus une question de disponibilité, mais de capacité à continuer à l’utiliser, et à quel niveau. Lorsqu’une IA devient suffisamment pratique, les gens réorganisent leur travail autour d’elle ; lorsque les tokens deviennent coûteux et limités, cette nouvelle organisation doit aussi se réduire.

Si la puissance de calcul ne peut pas être réellement aussi répandue que l’électricité à l’avenir, l’IA entraînera inévitablement une différenciation, et le fossé cognitif entre les individus se creusera. Par exemple, Su Yu ne prévoit pas de partager totalement ses méthodes d’utilisation de l’IA avec ses collègues. La façon d’interagir avec Claude, le type de données à lui fournir, restent ses secrets, qui constituent aussi, à court terme, son avantage concurrentiel.

Si un collègue lui demande de recommander un bon modèle, elle recommandera fortement Gemini ou ChatGPT, « bien sûr, DeepSeek est aussi une bonne option. » Elle cligne malicieusement un œil.

Dans un contexte où les « entreprises individuelles » (OPC) et les « super-individus » deviennent de plus en plus courants, ces « petites astuces » ne sont pas rares. Lorsque la praticité de l’IA se traduit en tokens facturables, la véritable différence réside dans la manière dont on l’utilise.

(Le nom de Su Yu est fictif dans l’article)

Source de la couverture : « Rédaction de l’Exploration de l’Univers »

Références

Émergence de l’intelligence : « Yang Zhilin / Zhang Peng / Xia Lixue / Luo Fuli / Huang Chao, discussion sur les « homards », discussion sur la « token économie » »

Daily Economic News : « L’IA engendre une consommation massive de tokens, pénurie de mémoire et hardware, la vague de location de puissance de calcul, les opérateurs renforcent le déploiement de serveurs refroidis par liquide » / « Zhang Peng de Zhipu : lorsque le modèle est suffisamment puissant, l’API elle-même devient le meilleur modèle commercial »

Jiemian News : « Zhipu atteint un nouveau sommet historique en bourse, nouvelle hausse de 10 % pour le nouveau modèle »

Deep潮TechFlow : « Token à l’étranger, vendre l’électricité chinoise au monde entier »

Silicon People Pro : « Luo Fuli : Réveillez-vous tous, il est temps de mettre fin à la fête artificielle des tokens »

GLM3,95%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GatePreIPOsLaunchesWithSpaceX
265.23K Popularité
#
Gate13thAnniversaryLive
970.52K Popularité
#
IsraelStrikesIranBTCPlunges
30.49K Popularité
#
CryptoMarketsDipSlightly
195.5K Popularité
#
USIranTensionsShakeMarkets
761.23K Popularité

Épingler

Celui qui ne peut pas se permettre des tokens est devenu une population de marché de niche à l'ère de l'IA

Les utilisateurs d’IA, sous l’emprise de l’anxiété

La circulation de la puissance de calcul, les coûts qui s’accumulent

Ce qui se passe lorsque la puissance de calcul circule vers la fin de la chaîne

Sujets populaires

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

CryptoMarketsDipSlightly

USIranTensionsShakeMarkets

Épingler