Guolian Minsheng Securities: A procura de tokens na "inflação" Observação de curto prazo do aumento de preços pelos fabricantes de grandes modelos e a melhoria marginal trazida pela procura

LootboxPhobia · 2026-02-22T14:25:21+00:00

Relatório de pesquisa da Guolian Minsheng Securities aponta que a computação em nuvem está a mudar para um modelo de "venda de recursos", enquanto os fabricantes de grandes modelos começam a lucrar através da venda de Tokens e resultados. A Zhipu ajustou para cima o preço do GLM Coding Plan, refletindo a mudança na lógica de precificação do setor, com Tokens tornando-se a nova unidade de medida, incentivando os fabricantes de modelos a aumentarem a margem de lucro através de uma precificação escalonada. O crescimento da demanda de curto prazo aliado ao aumento de preços, juntamente com a disseminação de ferramentas de governança a longo prazo, cria expectativas de mercado positivas.

LootboxPhobia

2026-02-22 14:25:21

Geração de resumo em curso

智通财经APP soube que a Guolian Minsheng Securities publicou um relatório de pesquisa afirmando que a computação em nuvem está gradualmente se tornando um “vendedor de recursos”, enquanto os fabricantes de grandes modelos se transformam em “vendedores de tokens + resultados”. O aumento de preço do GLM Coding Plan da Zhipu (02513) reflete uma mudança na lógica de precificação da indústria: quando a inferência passa a ser um insumo de produção, os fabricantes de modelos têm a oportunidade de transformar a “escassez de poder de processamento” em margem de lucro e fluxo de caixa por meio de precificação escalonada e produtos por assinatura. Observando a curto prazo a melhora marginal com o aumento de preços e demanda (inflação de tokens), a médio prazo o acompanhamento da participação das empresas e retenção de assinantes para renovação e expansão, e a longo prazo a popularização de ferramentas de governança que trarão um novo mercado para “firewalls de IA”.

Os principais pontos da Guolian Minsheng Securities são os seguintes:

Evento: Em 12 de fevereiro, a Zhipu anunciou em seus canais oficiais um aumento de pelo menos 30% na assinatura do GLM Coding Plan.
Anteriormente, provedores de nuvem estrangeiros também aumentaram seus preços neste mês, como o Google Cloud, que elevou seus preços em até 100% na América do Norte, além de ajustes na Europa e Ásia; ao mesmo tempo, a AWS aumentou seus preços em cerca de 15%. De modo geral, a demanda por tokens, impulsionada pela “inflação”, não só favorece o poder de processamento na nuvem, mas também dá aos fabricantes de modelos maior poder de negociação.

Subvertendo o caminho tradicional da internet gratuita

O caminho típico do software na internet tradicional é primeiro conquistar usuários com gratuidade, trocando “número e duração de usuários” por poder de negociação, e depois monetizar por meio de publicidade, assinaturas, serviços adicionais e comissões de transação. A razão subjacente à gratuidade é que o custo marginal é extremamente baixo. Ou seja, cada usuário adicional ou clique adicional pode ser diluído pelo efeito de escala de banda larga e armazenamento, levando a um custo marginal próximo de zero.

Na era da computação em nuvem também houve uma estratégia semelhante de “gratuito/baixo custo para expansão”, mas a unidade de cobrança na nuvem rapidamente se tornou CPU/armazenamento/banda/requests, e os clientes se acostumaram a pagar pelo uso. A cobrança na nuvem é possível porque ela fornece recursos claros e um SLA (Acordo de Nível de Serviço entre fornecedor e cliente). Contudo, enquanto a indústria ainda está na “guerra de preços dos modelos”, a Zhipu sinaliza um aumento de preços, o que indica que a unidade de medida na era dos grandes modelos está mudando de fluxo (DAU/duração) para tokens (consumo na inferência), sendo que o consumo de tokens se torna uma necessidade em cada vez mais cenários.

Mudanças na era dos grandes modelos: tokens se tornam “insumos de produção mensuráveis”, deixando de ser “fluxo gratuito”

Grandes modelos transformam “diálogo/escrever código/gerar conteúdo”, que parecem serviços fornecidos por fornecedores de software, em serviços de inferência online fortemente dependentes de poder de processamento. Para os fabricantes de modelos, cada resposta consome GPU, memória de vídeo, banda e energia; para os usuários, cada “pedido para o modelo pensar mais um pouco, escrever um trecho maior de código ou executar uma tarefa mais complexa” corresponde a maior consumo de tokens, tornando-os uma nova unidade de medida natural. A Zhipu, anteriormente, limitou a oferta do Coding Plan devido ao crescimento de usuários e à demanda por poder de processamento, formando uma cadeia de oferta e demanda típica: aumento rápido da demanda → restrição rígida de recursos (limitação de fluxo/quantidade) → aumento de preços.

Quando há congestionamento e escassez de recursos no pico, o aumento de preços funciona como um mecanismo de filtragem de demanda, protegendo melhor a experiência do usuário do que uma limitação indiscriminada. Além disso, os custos dos fabricantes de modelos ainda estão fortemente relacionados à oferta de GPU, utilização e otimizações de inferência. A precificação escalonada mais racional pode tirar os fabricantes do “quanto maior, mais prejuízo”, melhorando a margem de lucro e a qualidade do fluxo de caixa.

Demanda por tokens em “inflação”

“Inflação de tokens” não significa que o token em si ficou mais caro, mas que a estrutura de consumo de tokens por usuário por unidade de tempo está aumentando de forma estrutural. Os motivos para o aumento da demanda por tokens incluem:

De “perguntas e respostas” para “trabalho real”: Até hoje, os usuários não se satisfazem mais com respostas simples, mas querem que o modelo reestruture códigos, reescreva arquivos, gere documentos e execute testes. Cenários de programação naturalmente envolvem “contexto longo, múltiplas rodadas, grande volume de saída”, o que consome muitos tokens. Como a Zhipu afirmou, desenvolvedores dependem de seus modelos para suporte à codificação, levando a um crescimento rápido no consumo de tokens.

De “uma rodada” para “múltiplas rodadas de agentes”: A Zhipu posiciona o GLM-5 como um modelo de nova geração voltado para cenários de codificação e agentes; em 12 de fevereiro, o MiniMax-WP (00100) lançou seu mais recente modelo de ponta para programação, o M2.5, considerado o primeiro modelo de produção nativo para cenários de agentes. O desempenho de codificação e agentes do M2.5 (Coding & Agentic) é comparável ao Claude Opus 4.6. Agentes planejam, consultam, executam, refletem, chamando o modelo várias vezes, o que naturalmente aumenta o consumo de tokens passo a passo.

Aumento na intensidade de inferência: Mais “pensamento profundo” e “inferência de cadeias mais longas” aumentam significativamente o consumo de tokens na saída e nos processos intermediários. Para os desenvolvedores, isso geralmente traz maior taxa de sucesso e menos retrabalho, e os usuários estão dispostos a “queimar mais tokens para ganhar eficiência”.

Isso significa que tokens deixam de ser “fluxo” de custo marginal quase zero na internet tradicional, tornando-se “combustível” indispensável na realização de tarefas de produção.

Recomendações de investimento

A computação em nuvem está se tornando gradualmente um “vendedor de recursos”, enquanto os fabricantes de grandes modelos se transformam em “vendedores de tokens + resultados”. A alta de preços do GLM Coding Plan da Zhipu reflete uma mudança na lógica de precificação da indústria: quando o consumo na inferência passa a ser um insumo de produção, os fabricantes de modelos podem transformar a “escassez de poder de processamento” em margem de lucro e fluxo de caixa por meio de precificação escalonada e produtos por assinatura. Recomenda-se acompanhar continuamente:

Provedores de nuvem e infraestrutura de poder de processamento: Os gastos de TI impulsionados por IA e os investimentos em infraestrutura ainda estão em ciclo de alta, beneficiando a demanda contínua por GPU, armazenamento e I/O de rede.

Fabricantes de grandes modelos: Quando conseguirem manter a retenção por assinatura e expansão de participação empresarial em cenários de alto ROI, como programação, agentes e processos empresariais, convertendo de forma estável o “uso de tokens” em valor de entrega que economiza tempo, esforço e retrabalho, terão capacidade de atravessar guerras de preços e open source.

Ferramentas de segurança, governança e proteção em tempo de execução: À medida que as empresas incorporam IA em seus fluxos de trabalho, riscos como vazamento de dados e uso indevido de privilégios impulsionarão a necessidade de “plataformas de segurança/ governança de IA” como uma camada essencial.

A curto prazo, o aumento de preços e a demanda (inflação de tokens) trazem melhorias marginais; a médio prazo, o acompanhamento da participação das empresas e retenção de assinantes indicam renovação e expansão; a longo prazo, a popularização de ferramentas de governança trará um novo mercado de “firewalls de IA”.

Aviso de risco

Mudanças na rota tecnológica apresentam incertezas; a competição no setor pode se intensificar.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

2 gostos