Explosion en février ! Le volume d'appels à l'IA en Chine dépasse pour la première fois celui des États-Unis. Quatre grands modèles dominent le top 5 mondial. La demande en puissance de calcul nationale connaît une croissance exponentielle.
En février, le volume d’appels aux modèles d’IA en Chine a connu une croissance explosive, dépassant pour la première fois celui des États-Unis.
Selon la plateforme d’agrégation d’API de modèles d’IA la plus grande au monde, OpenRouter, du 9 au 15 février, les modèles chinois ont enregistré un volume d’appels de 4,12 trillions de tokens, dépassant pour la première fois celui des modèles américains, qui s’élevait à 2,94 trillions de tokens.
La semaine du 16 au 22 février, le volume hebdomadaire d’appels aux modèles chinois a encore augmenté pour atteindre 5,16 trillions de tokens, soit une hausse de 127 % en trois semaines, tandis que celui des modèles américains est tombé à 2,7 trillions de tokens. Par ailleurs, parmi les cinq modèles les plus utilisés mondialement, quatre proviennent de Chine, cette dynamique de croissance puissante ne dépend pas d’un seul produit phare, mais résulte de l’émergence collective des fabricants d’IA chinois.
Un token est la plus petite unité de traitement de texte par un modèle d’IA. Comparé au nombre d’utilisateurs, le volume d’appels en tokens est un indicateur plus précis de l’intensité d’utilisation, de la fidélité des utilisateurs et de la valeur commerciale d’un modèle d’IA.
Les fabricants de modèles d’IA en Chine, grâce à une itération rapide et à des coûts compétitifs, conquièrent le marché mondial, la demande en puissance de calcul nationale connaissant une croissance exponentielle.
Renversement dans le classement : la consommation de tokens en Chine dépasse celle des États-Unis, quatre grands modèles dominent le marché
La plateforme OpenRouter rassemble des centaines de grands modèles linguistiques mondiaux et compte plus de 5 millions d’utilisateurs développeurs, ce qui en fait la plus grande plateforme d’agrégation d’API de modèles d’IA au monde. Par conséquent, ses données d’appels API sont considérées comme le reflet le plus fidèle des tendances d’implantation des applications d’IA à l’échelle mondiale, car elles reflètent directement les choix des développeurs, incarnant la popularité et la compétitivité des modèles dans la pratique.
Il est important de noter que la majorité des utilisateurs de cette plateforme sont étrangers, avec une proportion d’utilisateurs américains atteignant 47,17 %, tandis que ceux de Chine ne représentent que 6,01 %, ce qui permet à ses données de classement de refléter de manière plus objective l’attractivité réelle des modèles d’IA chinois à l’échelle mondiale.
Les journalistes du Daily Economic News (ci-après dénommés journalistes de chaque) ont analysé les données d’OpenRouter et constaté que, au cours de l’année écoulée, le volume d’appels en tokens des grands modèles mondiaux a connu une croissance explosive. La semaine du 3 au 9 mars 2025, le volume hebdomadaire d’appels des dix principaux modèles sur cette plateforme n’était que de 1,24 trillion de tokens. En février 2026, ce chiffre a explosé à 13,95 trillions de tokens, soit une croissance de plus de 10 fois en moins d’un an.
En 2025, les modèles américains constituaient la principale force motrice de la croissance du marché, leur volume hebdomadaire d’appels en tokens représentant près de 70 % du total des dix plus grands modèles, tandis que la part des modèles chinois était inférieure à 20 %. Cependant, au début de 2026, la croissance des modèles américains a commencé à ralentir, tandis que ceux de Chine ont entamé une phase d’expansion fulgurante.
Les données montrent qu’au cours de la première semaine de février 2026 (du 2 au 8), le volume hebdomadaire d’appels des modèles chinois a atteint 2,27 trillions de tokens, envoyant un signal fort de poursuite.
Moins d’une semaine plus tard, au cours de la semaine du 9 au 15 février, les modèles chinois ont enregistré un volume d’appels impressionnant de 4,12 trillions de tokens, dépassant officiellement celui des modèles américains, qui s’élevait à 2,94 trillions de tokens, réalisant une avancée historique.
Cette dynamique ne s’est pas arrêtée là. La semaine du 16 au 22 février, le volume hebdomadaire d’appels des modèles chinois a encore bondi à 5,16 trillions de tokens, soit une croissance de 127 % en trois semaines, renforçant encore leur avantage compétitif.
Ce puissant élan de croissance ne repose pas sur un seul produit phare, mais résulte de l’émergence collective des fabricants d’IA chinois.
Les classements hebdomadaires du 16 au 22 février 2026 montrent que, parmi les cinq modèles les plus utilisés sur la plateforme, quatre proviennent de fabricants chinois : MiniMax M2.5, Kimi K2.5 de Yuezhian, GLM-5 de Zhipu, et V3.2 de DeepSeek. Ces quatre modèles représentent ensemble 85,7 % du volume total des cinq premiers.
Plus précisément, le modèle M2.5 de MiniMax, lancé le 13 février 2026, a rapidement dominé la première place du classement hebdomadaire en moins d’une semaine. Lors de la semaine du 9 au 15 février, sur le total de 3,21 trillions de tokens d’appels sur OpenRouter, le seul M2.5 a contribué à hauteur de 1,44 trillion de tokens, un chiffre impressionnant.
Le modèle Kimi K2.5, lancé le 27 janvier par Yuezhian, grâce à son architecture multimodale native et à sa capacité puissante de traitement parallèle par agents, a connu une croissance continue de ses appels. Il peut gérer jusqu’à 100 “agents” en parallèle, ce qui multiplie par 3 à 10 la productivité pour des tâches complexes. Selon les médias, en moins d’un mois après sa sortie, les revenus cumulés de Kimi ont déjà dépassé ceux de toute l’année 2025, principalement grâce à l’augmentation du nombre d’utilisateurs payants et d’appels API à l’échelle mondiale.
Le modèle phare de Zhipu, GLM-5, lancé après le 12 février, bénéficie d’une fenêtre de contexte ultra-longue de 200 000 tokens et d’une optimisation approfondie pour les tâches longues impliquant plusieurs agents, ce qui a permis une croissance rapide de sa base d’utilisateurs, ses appels ayant atteint 0,8 trillion de tokens dès la première semaine.
Au cours de l’année écoulée, le modèle Qianwen d’Alibaba, bien que peu souvent classé, a été mentionné dans un rapport conjoint d’a16z et d’OpenRouter comme ayant un volume total d’appels en tokens de 5,59 trillions, se plaçant en deuxième position mondiale, derrière DeepSeek avec 14,37 trillions.
Selon un rapport de la société de conseil Frost & Sullivan, dans le marché B2B des grands modèles en Chine, au second semestre 2025, la série Qwen a représenté 32,1 % des appels quotidiens en tokens, en tête, presque doublant sa part par rapport à 17,7 % au premier semestre, et devançant largement ByteDance Doubao (21,3 %) et DeepSeek (18,4 %).
Concernant la configuration du marché des grands modèles d’IA en Chine, le professeur invité Hu Yanping de l’Université de finance et d’économie de Shanghai a évoqué l’idée d’un “équipe IA chinoise”.
Il estime que, un degré élevé de concentration du marché n’est pas forcément souhaitable, qu’il vaut mieux avoir plusieurs grandes entreprises formant un vaste écosystème technologique plutôt que quelques oligopoles, ce qui favorise l’innovation, la compétition et le développement d’un écosystème de talents, tout en créant un avantage collectif dans la compétition sino-américaine.
Martin Casado, partenaire chez le célèbre fonds de capital-risque Andreessen Horowitz (a16z), a observé que, dans la Silicon Valley, 80 % des modèles principaux utilisés par les startups d’IA en levée de fonds proviennent de sources open source chinoises.
Compétitivité : pourquoi le coût des tokens chinois est-il inférieur à un dixième de celui des IA américaines ?
La raison pour laquelle les modèles chinois ont pu conquérir rapidement les développeurs du monde entier, au-delà de leurs performances équivalentes voire supérieures aux modèles internationaux de pointe, réside dans leur coût extrêmement compétitif, un avantage indiscutable.
Prenons l’exemple des prix affichés sur la plateforme OpenRouter : le coût en Chine est évident.
Dans la phase de traitement de l’entrée (Input), le prix du M2.5 de MiniMax et du GLM-5 de Zhipu est de 0,3 dollar par million de tokens. En comparaison, le produit concurrent américain Claude Opus4.6 coûte jusqu’à 5 dollars par million de tokens, soit environ 16,7 fois plus cher.
Dans la phase de génération de contenu (Output), la différence de coût est encore plus marquée. Le prix de sortie du M2.5 est de 1,1 dollar par million de tokens, celui du GLM-5 est de 2,55 dollars, tandis que celui de Claude Opus4.6 grimpe à 25 dollars, soit respectivement environ 22,7 et 9,8 fois plus cher que les modèles chinois.
Une telle différence de coûts détermine directement la décision économique des développeurs lors du choix de l’API.
Cette différence majeure de coûts provient principalement de l’innovation architecturale au niveau des algorithmes.
Li Qing, directeur de Frost & Sullivan Chine, a expliqué dans un entretien que l’utilisation de l’architecture “Mixture-of-Experts” (MoE) est l’une des raisons clés permettant aux modèles chinois de réduire considérablement leurs coûts d’inférence. Actuellement, des modèles comme DeepSeek ou le modèle de Alibaba, Tongyi Qianwen 3.5-Plus, utilisent largement cette architecture MoE.
L’ingéniosité de l’architecture MoE réside dans sa capacité à diviser un grand modèle en plusieurs “experts” plus petits et un “gating network”. Même si le modèle total possède des milliards de paramètres (par exemple plusieurs centaines de milliards), ce qui garantit une capacité de stockage et de connaissance élevée, lors du traitement d’une tâche spécifique, le réseau de gating décide intelligemment de n’activer qu’une petite partie des experts pertinents, ce qui réduit considérablement la consommation de ressources.
Ce mode “activation à la demande” plutôt que “mobilisation de tous” permet, par rapport aux modèles denses traditionnels, de diminuer la consommation de calcul et de matériel. Les données montrent que l’adoption de MoE peut réduire la consommation de mémoire GPU de 60 % lors de l’inférence, tout en augmentant la débit d’inférence jusqu’à 19 fois. Cette réduction des coûts à la source est la racine de leur avantage compétitif.
Outre l’innovation architecturale, les fabricants chinois explorent activement la voie de “l’intégration verticale”, afin de réduire encore plus le coût par token. L’idée centrale est de coordonner en profondeur la conception du logiciel, de l’infrastructure cloud et des puces IA, pour résoudre les problèmes d’adaptation hardware-software et maximiser l’utilisation des ressources de calcul.
Li Qing cite en exemple le système “Tongyi-Cloud-Core” d’Alibaba, qui, par une intégration verticale du haut vers le bas, optimise la gestion des ressources matérielles grâce à des algorithmes de planification extrême, réduisant ainsi considérablement le coût des infrastructures sous-jacentes. Cette optimisation systémique permet de réduire encore le coût de génération des tokens.
J.P. Morgan, dans un rapport, prévoit un avenir très optimiste pour le marché chinois, estimant que de 2025 à 2030, la croissance annuelle composée de la consommation de tokens en Chine atteindra 330 %, soit une multiplication par 370 en seulement 5 ans.
Transformation de la valeur : le token passe du “trafic” Internet au “carburant” de l’ère de l’IA
L’augmentation exponentielle de la consommation de tokens, qui semble d’abord liée à la croissance du nombre d’utilisateurs et de leur temps d’utilisation, cache une dynamique plus profonde : un changement fondamental dans la façon dont les utilisateurs utilisent l’IA. L’IA évolue d’un simple outil de questions-réponses pour des tâches quotidiennes, vers un “outil de productivité” capable de participer profondément aux flux de travail et de gérer des tâches complexes.
Une récente étude de China United Securities a introduit le concept de “Token inflation”. Il ne s’agit pas d’une augmentation du prix du token, mais d’une hausse structurelle de la consommation de tokens par utilisateur dans le temps. Ce phénomène s’explique par trois tendances principales.
Premièrement, les besoins fondamentaux des utilisateurs évoluent du “question-réponse” superficiel vers le “travailler”, c’est-à-dire utiliser de plus en plus l’IA pour réécrire du code, modifier des fichiers, générer des documents ou exécuter des tests. Les scénarios de programmation, avec leur “long contexte, multi-iterations et sortie massive”, consomment naturellement beaucoup de tokens.
Deuxièmement, l’émergence et la diffusion de la technologie d’Agents IA amplifient la consommation de tokens. Ces agents planifient, recherchent, exécutent, réfléchissent, enchaînent plusieurs appels au modèle, ce qui augmente la consommation de tokens étape par étape.
Enfin, la “puissance de l’inférence” augmente. Plus de réflexion profonde et de raisonnement sur de longues chaînes accroît la consommation de tokens pour la sortie et les processus intermédiaires. Mais pour les développeurs, cela signifie souvent un taux de réussite plus élevé et moins de retouches, ce qui incite à “investir plus de tokens pour gagner en efficacité”.
Tous ces changements transforment le token d’un “trafic” à coût marginal quasi nul dans l’Internet traditionnel, en un “carburant” indispensable à l’exécution des tâches de production.
Ce phénomène rejoint la vision des grands fabricants mondiaux de puces. Nvidia, lors de sa conférence sur ses résultats du 26 février, a répété un message clé : “Calcul = revenu”, “Inference = revenu”. Il souligne que sans puissance de calcul, il n’y a pas de génération de tokens ; sans tokens, il n’y a pas de croissance du revenu. À l’ère de l’IA, la performance d’inférence détermine directement la capacité des clients à générer des revenus, et le cœur de cette inférence est la capacité à produire efficacement des tokens commercialisables. Face aux contraintes croissantes d’électricité dans les centres de données mondiaux, “performance par watt” est devenue une métrique clé pour mesurer l’efficacité et la potentiel de revenu des services IA.
Li Qing indique à chaque journaliste que, le modèle commercial des services IA évolue d’un simple “paiement à l’usage” vers un mode hybride “carburant + résultat”. D’un côté, le prix du token, en tant que “carburant”, continuera de baisser grâce aux progrès technologiques et à l’effet d’échelle ; de l’autre, avec la transformation de l’IA d’un simple outil de questions-réponses en un “outil de productivité”, les entreprises seront plus disposées à payer directement pour des “résultats”, ce qui favorisera l’émergence de modèles commerciaux basés sur l’abonnement.
Li Qing prévoit également que, dans le futur, la tarification des services IA deviendra inévitablement hautement personnalisée et flexible. Elle explique que l’arrivée de l’ère des Agents, avec la diversité des tâches et leur complexité, rendra impossible une tarification unique pour tous. À l’avenir, des facteurs tels que la consommation de calcul, la fréquence d’appels, la nécessité de raisonnement multi-étapes ou de planification, seront intégrés dans une grille tarifaire multidimensionnelle et dynamique, qui deviendra la norme.
(Article publié par : Daily Economic News)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Explosion en février ! Le volume d'appels à l'IA en Chine dépasse pour la première fois celui des États-Unis. Quatre grands modèles dominent le top 5 mondial. La demande en puissance de calcul nationale connaît une croissance exponentielle.
En février, le volume d’appels aux modèles d’IA en Chine a connu une croissance explosive, dépassant pour la première fois celui des États-Unis.
Selon la plateforme d’agrégation d’API de modèles d’IA la plus grande au monde, OpenRouter, du 9 au 15 février, les modèles chinois ont enregistré un volume d’appels de 4,12 trillions de tokens, dépassant pour la première fois celui des modèles américains, qui s’élevait à 2,94 trillions de tokens.
La semaine du 16 au 22 février, le volume hebdomadaire d’appels aux modèles chinois a encore augmenté pour atteindre 5,16 trillions de tokens, soit une hausse de 127 % en trois semaines, tandis que celui des modèles américains est tombé à 2,7 trillions de tokens. Par ailleurs, parmi les cinq modèles les plus utilisés mondialement, quatre proviennent de Chine, cette dynamique de croissance puissante ne dépend pas d’un seul produit phare, mais résulte de l’émergence collective des fabricants d’IA chinois.
Un token est la plus petite unité de traitement de texte par un modèle d’IA. Comparé au nombre d’utilisateurs, le volume d’appels en tokens est un indicateur plus précis de l’intensité d’utilisation, de la fidélité des utilisateurs et de la valeur commerciale d’un modèle d’IA.
Les fabricants de modèles d’IA en Chine, grâce à une itération rapide et à des coûts compétitifs, conquièrent le marché mondial, la demande en puissance de calcul nationale connaissant une croissance exponentielle.
Renversement dans le classement : la consommation de tokens en Chine dépasse celle des États-Unis, quatre grands modèles dominent le marché
La plateforme OpenRouter rassemble des centaines de grands modèles linguistiques mondiaux et compte plus de 5 millions d’utilisateurs développeurs, ce qui en fait la plus grande plateforme d’agrégation d’API de modèles d’IA au monde. Par conséquent, ses données d’appels API sont considérées comme le reflet le plus fidèle des tendances d’implantation des applications d’IA à l’échelle mondiale, car elles reflètent directement les choix des développeurs, incarnant la popularité et la compétitivité des modèles dans la pratique.
Il est important de noter que la majorité des utilisateurs de cette plateforme sont étrangers, avec une proportion d’utilisateurs américains atteignant 47,17 %, tandis que ceux de Chine ne représentent que 6,01 %, ce qui permet à ses données de classement de refléter de manière plus objective l’attractivité réelle des modèles d’IA chinois à l’échelle mondiale.
Les journalistes du Daily Economic News (ci-après dénommés journalistes de chaque) ont analysé les données d’OpenRouter et constaté que, au cours de l’année écoulée, le volume d’appels en tokens des grands modèles mondiaux a connu une croissance explosive. La semaine du 3 au 9 mars 2025, le volume hebdomadaire d’appels des dix principaux modèles sur cette plateforme n’était que de 1,24 trillion de tokens. En février 2026, ce chiffre a explosé à 13,95 trillions de tokens, soit une croissance de plus de 10 fois en moins d’un an.
En 2025, les modèles américains constituaient la principale force motrice de la croissance du marché, leur volume hebdomadaire d’appels en tokens représentant près de 70 % du total des dix plus grands modèles, tandis que la part des modèles chinois était inférieure à 20 %. Cependant, au début de 2026, la croissance des modèles américains a commencé à ralentir, tandis que ceux de Chine ont entamé une phase d’expansion fulgurante.
Les données montrent qu’au cours de la première semaine de février 2026 (du 2 au 8), le volume hebdomadaire d’appels des modèles chinois a atteint 2,27 trillions de tokens, envoyant un signal fort de poursuite.
Moins d’une semaine plus tard, au cours de la semaine du 9 au 15 février, les modèles chinois ont enregistré un volume d’appels impressionnant de 4,12 trillions de tokens, dépassant officiellement celui des modèles américains, qui s’élevait à 2,94 trillions de tokens, réalisant une avancée historique.
Cette dynamique ne s’est pas arrêtée là. La semaine du 16 au 22 février, le volume hebdomadaire d’appels des modèles chinois a encore bondi à 5,16 trillions de tokens, soit une croissance de 127 % en trois semaines, renforçant encore leur avantage compétitif.
Ce puissant élan de croissance ne repose pas sur un seul produit phare, mais résulte de l’émergence collective des fabricants d’IA chinois.
Les classements hebdomadaires du 16 au 22 février 2026 montrent que, parmi les cinq modèles les plus utilisés sur la plateforme, quatre proviennent de fabricants chinois : MiniMax M2.5, Kimi K2.5 de Yuezhian, GLM-5 de Zhipu, et V3.2 de DeepSeek. Ces quatre modèles représentent ensemble 85,7 % du volume total des cinq premiers.
Plus précisément, le modèle M2.5 de MiniMax, lancé le 13 février 2026, a rapidement dominé la première place du classement hebdomadaire en moins d’une semaine. Lors de la semaine du 9 au 15 février, sur le total de 3,21 trillions de tokens d’appels sur OpenRouter, le seul M2.5 a contribué à hauteur de 1,44 trillion de tokens, un chiffre impressionnant.
Le modèle Kimi K2.5, lancé le 27 janvier par Yuezhian, grâce à son architecture multimodale native et à sa capacité puissante de traitement parallèle par agents, a connu une croissance continue de ses appels. Il peut gérer jusqu’à 100 “agents” en parallèle, ce qui multiplie par 3 à 10 la productivité pour des tâches complexes. Selon les médias, en moins d’un mois après sa sortie, les revenus cumulés de Kimi ont déjà dépassé ceux de toute l’année 2025, principalement grâce à l’augmentation du nombre d’utilisateurs payants et d’appels API à l’échelle mondiale.
Le modèle phare de Zhipu, GLM-5, lancé après le 12 février, bénéficie d’une fenêtre de contexte ultra-longue de 200 000 tokens et d’une optimisation approfondie pour les tâches longues impliquant plusieurs agents, ce qui a permis une croissance rapide de sa base d’utilisateurs, ses appels ayant atteint 0,8 trillion de tokens dès la première semaine.
Au cours de l’année écoulée, le modèle Qianwen d’Alibaba, bien que peu souvent classé, a été mentionné dans un rapport conjoint d’a16z et d’OpenRouter comme ayant un volume total d’appels en tokens de 5,59 trillions, se plaçant en deuxième position mondiale, derrière DeepSeek avec 14,37 trillions.
Selon un rapport de la société de conseil Frost & Sullivan, dans le marché B2B des grands modèles en Chine, au second semestre 2025, la série Qwen a représenté 32,1 % des appels quotidiens en tokens, en tête, presque doublant sa part par rapport à 17,7 % au premier semestre, et devançant largement ByteDance Doubao (21,3 %) et DeepSeek (18,4 %).
Concernant la configuration du marché des grands modèles d’IA en Chine, le professeur invité Hu Yanping de l’Université de finance et d’économie de Shanghai a évoqué l’idée d’un “équipe IA chinoise”.
Il estime que, un degré élevé de concentration du marché n’est pas forcément souhaitable, qu’il vaut mieux avoir plusieurs grandes entreprises formant un vaste écosystème technologique plutôt que quelques oligopoles, ce qui favorise l’innovation, la compétition et le développement d’un écosystème de talents, tout en créant un avantage collectif dans la compétition sino-américaine.
Martin Casado, partenaire chez le célèbre fonds de capital-risque Andreessen Horowitz (a16z), a observé que, dans la Silicon Valley, 80 % des modèles principaux utilisés par les startups d’IA en levée de fonds proviennent de sources open source chinoises.
Compétitivité : pourquoi le coût des tokens chinois est-il inférieur à un dixième de celui des IA américaines ?
La raison pour laquelle les modèles chinois ont pu conquérir rapidement les développeurs du monde entier, au-delà de leurs performances équivalentes voire supérieures aux modèles internationaux de pointe, réside dans leur coût extrêmement compétitif, un avantage indiscutable.
Prenons l’exemple des prix affichés sur la plateforme OpenRouter : le coût en Chine est évident.
Dans la phase de traitement de l’entrée (Input), le prix du M2.5 de MiniMax et du GLM-5 de Zhipu est de 0,3 dollar par million de tokens. En comparaison, le produit concurrent américain Claude Opus4.6 coûte jusqu’à 5 dollars par million de tokens, soit environ 16,7 fois plus cher.
Dans la phase de génération de contenu (Output), la différence de coût est encore plus marquée. Le prix de sortie du M2.5 est de 1,1 dollar par million de tokens, celui du GLM-5 est de 2,55 dollars, tandis que celui de Claude Opus4.6 grimpe à 25 dollars, soit respectivement environ 22,7 et 9,8 fois plus cher que les modèles chinois.
Une telle différence de coûts détermine directement la décision économique des développeurs lors du choix de l’API.
Cette différence majeure de coûts provient principalement de l’innovation architecturale au niveau des algorithmes.
Li Qing, directeur de Frost & Sullivan Chine, a expliqué dans un entretien que l’utilisation de l’architecture “Mixture-of-Experts” (MoE) est l’une des raisons clés permettant aux modèles chinois de réduire considérablement leurs coûts d’inférence. Actuellement, des modèles comme DeepSeek ou le modèle de Alibaba, Tongyi Qianwen 3.5-Plus, utilisent largement cette architecture MoE.
L’ingéniosité de l’architecture MoE réside dans sa capacité à diviser un grand modèle en plusieurs “experts” plus petits et un “gating network”. Même si le modèle total possède des milliards de paramètres (par exemple plusieurs centaines de milliards), ce qui garantit une capacité de stockage et de connaissance élevée, lors du traitement d’une tâche spécifique, le réseau de gating décide intelligemment de n’activer qu’une petite partie des experts pertinents, ce qui réduit considérablement la consommation de ressources.
Ce mode “activation à la demande” plutôt que “mobilisation de tous” permet, par rapport aux modèles denses traditionnels, de diminuer la consommation de calcul et de matériel. Les données montrent que l’adoption de MoE peut réduire la consommation de mémoire GPU de 60 % lors de l’inférence, tout en augmentant la débit d’inférence jusqu’à 19 fois. Cette réduction des coûts à la source est la racine de leur avantage compétitif.
Outre l’innovation architecturale, les fabricants chinois explorent activement la voie de “l’intégration verticale”, afin de réduire encore plus le coût par token. L’idée centrale est de coordonner en profondeur la conception du logiciel, de l’infrastructure cloud et des puces IA, pour résoudre les problèmes d’adaptation hardware-software et maximiser l’utilisation des ressources de calcul.
Li Qing cite en exemple le système “Tongyi-Cloud-Core” d’Alibaba, qui, par une intégration verticale du haut vers le bas, optimise la gestion des ressources matérielles grâce à des algorithmes de planification extrême, réduisant ainsi considérablement le coût des infrastructures sous-jacentes. Cette optimisation systémique permet de réduire encore le coût de génération des tokens.
J.P. Morgan, dans un rapport, prévoit un avenir très optimiste pour le marché chinois, estimant que de 2025 à 2030, la croissance annuelle composée de la consommation de tokens en Chine atteindra 330 %, soit une multiplication par 370 en seulement 5 ans.
Transformation de la valeur : le token passe du “trafic” Internet au “carburant” de l’ère de l’IA
L’augmentation exponentielle de la consommation de tokens, qui semble d’abord liée à la croissance du nombre d’utilisateurs et de leur temps d’utilisation, cache une dynamique plus profonde : un changement fondamental dans la façon dont les utilisateurs utilisent l’IA. L’IA évolue d’un simple outil de questions-réponses pour des tâches quotidiennes, vers un “outil de productivité” capable de participer profondément aux flux de travail et de gérer des tâches complexes.
Une récente étude de China United Securities a introduit le concept de “Token inflation”. Il ne s’agit pas d’une augmentation du prix du token, mais d’une hausse structurelle de la consommation de tokens par utilisateur dans le temps. Ce phénomène s’explique par trois tendances principales.
Premièrement, les besoins fondamentaux des utilisateurs évoluent du “question-réponse” superficiel vers le “travailler”, c’est-à-dire utiliser de plus en plus l’IA pour réécrire du code, modifier des fichiers, générer des documents ou exécuter des tests. Les scénarios de programmation, avec leur “long contexte, multi-iterations et sortie massive”, consomment naturellement beaucoup de tokens.
Deuxièmement, l’émergence et la diffusion de la technologie d’Agents IA amplifient la consommation de tokens. Ces agents planifient, recherchent, exécutent, réfléchissent, enchaînent plusieurs appels au modèle, ce qui augmente la consommation de tokens étape par étape.
Enfin, la “puissance de l’inférence” augmente. Plus de réflexion profonde et de raisonnement sur de longues chaînes accroît la consommation de tokens pour la sortie et les processus intermédiaires. Mais pour les développeurs, cela signifie souvent un taux de réussite plus élevé et moins de retouches, ce qui incite à “investir plus de tokens pour gagner en efficacité”.
Tous ces changements transforment le token d’un “trafic” à coût marginal quasi nul dans l’Internet traditionnel, en un “carburant” indispensable à l’exécution des tâches de production.
Ce phénomène rejoint la vision des grands fabricants mondiaux de puces. Nvidia, lors de sa conférence sur ses résultats du 26 février, a répété un message clé : “Calcul = revenu”, “Inference = revenu”. Il souligne que sans puissance de calcul, il n’y a pas de génération de tokens ; sans tokens, il n’y a pas de croissance du revenu. À l’ère de l’IA, la performance d’inférence détermine directement la capacité des clients à générer des revenus, et le cœur de cette inférence est la capacité à produire efficacement des tokens commercialisables. Face aux contraintes croissantes d’électricité dans les centres de données mondiaux, “performance par watt” est devenue une métrique clé pour mesurer l’efficacité et la potentiel de revenu des services IA.
Li Qing indique à chaque journaliste que, le modèle commercial des services IA évolue d’un simple “paiement à l’usage” vers un mode hybride “carburant + résultat”. D’un côté, le prix du token, en tant que “carburant”, continuera de baisser grâce aux progrès technologiques et à l’effet d’échelle ; de l’autre, avec la transformation de l’IA d’un simple outil de questions-réponses en un “outil de productivité”, les entreprises seront plus disposées à payer directement pour des “résultats”, ce qui favorisera l’émergence de modèles commerciaux basés sur l’abonnement.
Li Qing prévoit également que, dans le futur, la tarification des services IA deviendra inévitablement hautement personnalisée et flexible. Elle explique que l’arrivée de l’ère des Agents, avec la diversité des tâches et leur complexité, rendra impossible une tarification unique pour tous. À l’avenir, des facteurs tels que la consommation de calcul, la fréquence d’appels, la nécessité de raisonnement multi-étapes ou de planification, seront intégrés dans une grille tarifaire multidimensionnelle et dynamique, qui deviendra la norme.
(Article publié par : Daily Economic News)