Guolian Minsheng Securities : La demande de tokens dans un contexte d'« inflation » Observation à court terme de l'augmentation des prix par les grands fabricants de modèles et de l'amélioration marginale due à la demande

2026-02-22 14:25:21

Création du résumé en cours

智通财经APP a appris que Guolian Minsheng Securities a publié un rapport de recherche indiquant que le cloud computing devient progressivement un « vendeur de ressources », tandis que les fabricants de grands modèles d’IA se transforment en « vendeurs de tokens + résultats ». La hausse de prix du plan de codage GLM de Zhipu (02513) reflète un changement dans la logique de tarification de l’industrie : lorsque la consommation d’inférence devient une matière première de production, les fabricants de modèles ont la possibilité de transformer la « rareté de la puissance de calcul » en marges et flux de trésorerie via une tarification hiérarchisée et des produits par abonnement. En observant à court terme l’impact de la hausse des prix et de la demande (inflation des tokens), à moyen terme le suivi des positions des entreprises et de la rétention par abonnement permettra d’évaluer la renouvelabilité et l’expansion, tandis qu’à long terme, la diffusion des outils de gouvernance apportera un nouveau marché pour le « pare-feu AI ».

Les principaux points de Guolian Minsheng Securities sont les suivants :

Événement : Le 12 février, Zhipu a annoncé via ses canaux officiels une augmentation d’au moins 30 % du prix d’abonnement au plan de codage GLM.
Précédemment, les fournisseurs de cloud étrangers ont également augmenté leurs prix ce mois-ci, Google Cloud ayant augmenté ses tarifs de 100 % en Amérique du Nord, avec des hausses simultanées en Europe et en Asie ; AWS a également augmenté ses prix d’environ 15 %. Dans l’ensemble, la « inflation » de la demande de tokens profite non seulement à la puissance de calcul cloud, mais donne aussi aux fabricants de modèles un pouvoir de négociation.

Une rupture avec la voie gratuite traditionnelle de l’Internet

La voie typique des logiciels Internet traditionnels consiste à attirer des utilisateurs par la gratuité, en échange de leur volume et de leur durée d’utilisation, afin d’obtenir un pouvoir de négociation, puis à monétiser via la publicité, les abonnements, les services à valeur ajoutée ou les commissions sur transactions. La raison sous-jacente à la gratuité est que le coût marginal est extrêmement faible : chaque utilisateur supplémentaire ou clic supplémentaire peut être dilué par l’effet de l’échelle de la bande passante et du stockage, approchant ainsi un coût marginal proche de zéro.

L’ère du cloud computing a connu un phénomène similaire de « gratuité/low-cost puis expansion », mais l’unité de facturation est rapidement devenue le CPU, le stockage, la bande passante ou le nombre de requêtes, et les clients se sont habitués à une tarification à l’usage. La facturation du cloud repose sur la livraison de ressources claires et d’un SLA (accord de niveau de service). Cependant, alors que l’industrie est encore engagée dans une « guerre des prix des modèles », Zhipu a commencé à signaler une hausse des prix, ce qui indique que dans l’ère des grands modèles, l’unité de mesure passe de la consommation de flux (DAU/durée) à celle de tokens (consommation lors de l’inférence), et cette consommation devient une nécessité dans de nombreux scénarios.

Changements dans l’ère des grands modèles : les tokens deviennent une « matière première mesurable », et ne sont plus de « simples flux gratuits »

Les grands modèles transforment des services apparemment fournis par des fournisseurs de logiciels — comme la conversation, la rédaction de code ou la génération de contenu — en services d’inférence en ligne fortement dépendants de la puissance de calcul. Pour les fabricants de modèles, chaque réponse consomme concrètement GPU, mémoire vidéo, bande passante et électricité ; pour les utilisateurs, chaque demande de « laisser le modèle réfléchir un peu plus longtemps, écrire un code plus long ou exécuter une tâche plus complexe » entraîne une consommation accrue de tokens. Ainsi, les tokens deviennent naturellement une nouvelle unité de mesure. La croissance rapide du besoin en puissance de calcul liée à l’augmentation du nombre d’utilisateurs a conduit Zhipu à limiter temporairement la vente du Coding Plan, illustrant un « chaînon de l’offre et de la demande » : demande en forte croissance à court terme → contraintes rigides sur les ressources (limitation ou rationnement) → hausse des prix.

Lorsque des pics de congestion et de tension sur les ressources apparaissent, la hausse des prix devient un mécanisme pour filtrer la demande, protégeant ainsi l’expérience utilisateur plus efficacement qu’un simple rationnement sans distinction. De plus, le coût pour les fabricants de modèles reste fortement lié à l’offre de GPU, au taux d’utilisation et à l’optimisation de l’inférence. Une tarification plus rationnelle et hiérarchisée peut aider ces fabricants à sortir du piège où « plus ils sont grands, plus ils perdent » et à améliorer la marge brute et la qualité des flux de trésorerie.

La demande de tokens dans un contexte d’« inflation »

L’« inflation des tokens » ne signifie pas que le token lui-même devient plus cher, mais que la consommation de tokens par unité de temps ou par utilisateur augmente structurellement. Plusieurs raisons expliquent cette forte demande :

De « question-réponse » à « travail effectif » : Aujourd’hui, les utilisateurs ne se contentent plus de réponses simples, mais demandent que le modèle reconfigure du code, modifie des fichiers, génère des documents ou exécute des tests. La caractéristique intrinsèque des scénarios de programmation est un « contexte long, plusieurs tours d’itération, une sortie volumineuse », ce qui entraîne une consommation importante de tokens. La déclaration de Zhipu confirme que les développeurs s’appuient sur ses modèles pour le support de codage, ce qui accélère la croissance de la consommation de tokens.

De « tour unique » à « agents multi-tours » : Zhipu positionne GLM-5 comme un nouveau modèle destiné aux scénarios de codage et d’agents ; le 12 février, MiniMax-WP (00100) a également lancé son modèle phare de programmation M2.5, conçu nativement pour les scénarios d’agents, le premier du genre. La performance de M2.5 en programmation et en agentivité (Coding & Agentic) est directement comparée à Claude Opus 4.6. Les agents planifient, recherchent, exécutent, réfléchissent et appellent le modèle à plusieurs reprises, ce qui augmente naturellement la consommation de tokens étape par étape.

L’intensité de l’inférence en hausse : plus de « réflexion approfondie » et de « chaînes de raisonnement longues » augmentent significativement la consommation de tokens pour la sortie et les processus intermédiaires. Pour les développeurs, cela se traduit souvent par un taux de réussite plus élevé et moins de retouches, et les utilisateurs sont prêts à « brûler plus de tokens pour plus d’efficacité ».

Cela signifie que les tokens ne sont plus de simples flux à coût marginal quasi nul comme à l’époque de l’Internet traditionnel, mais un « carburant » indispensable pour la production de tâches.

Conseils d’investissement

Le cloud computing devient progressivement un « vendeur de ressources », tandis que les fabricants de grands modèles se transforment en « vendeurs de tokens + résultats ». La hausse de prix du plan de codage GLM de Zhipu reflète un changement dans la logique de tarification de l’industrie : lorsque la consommation d’inférence devient une matière première de production, les fabricants de modèles ont la possibilité de transformer la « rareté de la puissance de calcul » en marges et flux de trésorerie via une tarification hiérarchisée et des produits par abonnement. Il est conseillé de continuer à suivre :

Les fournisseurs de cloud et l’infrastructure de puissance de calcul : Les dépenses IT stimulées par l’IA et les investissements dans l’infrastructure restent en phase de croissance, bénéficiant à long terme à la demande de GPU, de stockage et d’I/O réseau.

Les fabricants de grands modèles : Lorsqu’ils peuvent maintenir la rétention par abonnement et l’expansion des positions d’entreprise dans des scénarios à haute ROI comme la programmation, les agents ou les processus d’entreprise, et convertir la « consommation de tokens » en une valeur de livraison « qui fait gagner du temps, réduit la main-d’œuvre et évite les retouches », ils seront capables de traverser la concurrence des open source et la guerre des prix.

Outils de sécurité, de gouvernance et de protection en temps réel : À mesure que les entreprises intègrent l’IA dans leurs flux de travail, les risques de fuite de données ou de dépassement d’autorisation par des agents renforceront la nécessité d’« plateformes de sécurité/ gouvernance IA ».

Il faut suivre à court terme l’impact de la hausse des prix et de la demande (inflation des tokens), à moyen terme la fidélisation par abonnement et l’expansion des positions des entreprises, et à long terme le développement du marché des « pare-feu AI » grâce à la diffusion des outils de gouvernance.

Avertissements sur les risques

Les changements de trajectoire technologique comportent une incertitude ; la concurrence dans l’industrie s’intensifie.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime