Fevereiro de explosão! O volume de chamadas de IA na China ultrapassa os EUA pela primeira vez. Quatro grandes modelos dominam o top 5 global. A procura por poder de computação nacional está a passar por um crescimento exponencial.

2026-02-26 11:52:25

Em fevereiro, a quantidade de chamadas de modelos de IA na China explodiu, ultrapassando pela primeira vez a dos EUA.

De acordo com a maior plataforma de agregação de APIs de modelos de IA do mundo, OpenRouter, na semana de 9 a 15 de fevereiro, os modelos chineses registraram um volume de chamadas de 4,12 trilhões de Tokens, superando pela primeira vez os 2,94 trilhões de Tokens dos modelos americanos no mesmo período.

Na semana de 16 a 22 de fevereiro, o volume semanal de chamadas dos modelos chineses subiu ainda mais para 5,16 trilhões de Tokens, um aumento de 127% em três semanas, enquanto o volume dos modelos americanos caiu para 2,7 trilhões de Tokens. Ao mesmo tempo, entre os cinco principais modelos globais em volume de chamadas, quatro são chineses. Essa forte dinâmica de crescimento não depende de um único produto de sucesso, mas sim do surgimento coletivo de fabricantes de IA na China.

Tokens são a menor unidade de processamento de texto pelos modelos de IA. Em comparação com o número de usuários, o volume de chamadas de Tokens é um indicador mais preciso do uso, da fidelidade do usuário e do valor comercial do modelo de IA.

Fabricantes chineses de modelos de IA estão conquistando o mercado global por meio de rápida iteração e vantagens de custo, enquanto a demanda por capacidade computacional nacional cresce exponencialmente.

A classificação está mudando: os Tokens chineses ultrapassaram os americanos, com quatro grandes modelos dominando a lista

A plataforma OpenRouter reúne centenas de grandes modelos de linguagem do mundo todo, com mais de 5 milhões de usuários desenvolvedores, sendo atualmente a maior plataforma de agregação de APIs de modelos de IA do mundo. Seus dados de chamadas de API são considerados o indicador mais realista das tendências de implementação de IA global, pois refletem diretamente as escolhas dos desenvolvedores, demonstrando a popularidade e competitividade dos modelos na prática.

Vale notar que a maior parte dos usuários da plataforma são desenvolvedores estrangeiros, com os EUA representando 47,17%, enquanto os desenvolvedores chineses representam apenas 6,01%. Isso faz com que os dados da lista sejam mais objetivos na refletir a atração real dos modelos chineses de IA no cenário global.

O repórter do Daily Economic News (doravante, cada经记者) analisou os dados do OpenRouter e constatou que o volume global de Tokens de grandes modelos cresceu de forma surpreendente no último ano. Na semana de 3 a 9 de março de 2025, os dez principais modelos da plataforma tiveram um volume semanal de chamadas de apenas 1,24 trilhões de Tokens. Em meados de fevereiro de 2026, esse número disparou para 13,95 trilhões de Tokens, um crescimento de mais de 10 vezes em menos de um ano.

Em 2025, os modelos americanos foram o principal motor de crescimento do mercado, respondendo por quase 70% do volume total dos dez maiores modelos semanais, enquanto os modelos chineses representaram menos de 20%. No entanto, em 2026, o ritmo de crescimento dos modelos americanos começou a desacelerar, enquanto os chineses entraram em uma fase de aceleração intensa.

Dados indicam que na primeira semana de fevereiro de 2026 (de 2 a 8), os modelos chineses atingiram 2,27 trilhões de Tokens, sinalizando forte avanço.

Apenas uma semana depois, na semana de 9 a 15 de fevereiro, os modelos chineses atingiram um volume de 4,12 trilhões de Tokens, superando oficialmente os 2,94 trilhões dos modelos americanos no mesmo período, marcando uma conquista histórica.

Esse ritmo não parou por aí: na semana de 16 a 22 de fevereiro, o volume semanal dos modelos chineses subiu para 5,16 trilhões de Tokens, um aumento de 127% em três semanas, ampliando ainda mais a vantagem.

Esse forte impulso de crescimento não depende de um único produto de sucesso, mas do surgimento coletivo de fabricantes de IA na China.

Na semana de 16 a 22 de fevereiro de 2026, entre os cinco principais modelos em volume de chamadas, quatro são de fabricantes chineses: MiniMax M2.5, Kimi K2.5 da Yue Zhi An Mian, GLM-5 da Zhi Pu, e V3.2 da DeepSeek. Esses quatro modelos representam 85,7% do volume total dos cinco mais chamados.

Especificamente, o modelo M2.5 da MiniMax, lançado em 13 de fevereiro de 2026, atingiu rapidamente o topo da lista de chamadas semanais em menos de uma semana. Na semana de 9 a 15 de fevereiro, dos 3,21 trilhões de Tokens totais do OpenRouter, o M2.5 contribuiu com impressionantes 1,44 trilhões de Tokens.

O modelo Kimi K2.5, lançado em 27 de janeiro, da Yue Zhi An Mian, graças à sua arquitetura multimodal nativa e à forte capacidade de processamento paralelo de agentes, experimentou picos contínuos de chamadas. Ele consegue gerenciar até 100 “agentes virtuais” em paralelo, aumentando a eficiência de tarefas complexas de 3 a 10 vezes. Segundo relatos, em menos de um mês após o lançamento, a receita acumulada do Kimi já superou toda a receita de 2025, impulsionada pelo aumento de usuários pagos globais e pelo volume de chamadas de API.

O modelo GLM-5, da Zhi Pu, lançado em 12 de fevereiro, com sua janela de contexto de 200K e otimizações profundas para tarefas de longo prazo, viu sua base de usuários crescer rapidamente, atingindo 0,8 trilhões de Tokens na semana de lançamento.

No último ano, embora o modelo Qwen da Alibaba Qianwen não tenha aparecido frequentemente nas listas, um relatório conjunto da a16z e do OpenRouter revelou que sua série de modelos totalizou 5,59 trilhões de Tokens, ficando em segundo lugar mundial, atrás apenas do DeepSeek, com 14,37 trilhões.

Segundo o relatório da consultoria Frost & Sullivan, no mercado B2B de grandes modelos na China, no segundo semestre de 2025, a série Qwen respondeu por 32,1% do volume diário de Tokens, quase o dobro dos 17,7% do primeiro semestre, ampliando sua vantagem sobre ByteDance Doubao (21,3%) e DeepSeek (18,4%).

Sobre o cenário dos grandes modelos de IA na China, o professor convidado da Shanghai University of Finance and Economics, Hu Yanping, afirmou em entrevista ao 每经 que há uma formação de um “time de IA na China”.

Ele acredita que a concentração de mercado não é necessariamente positiva; ter várias empresas líderes formando uma ampla comunidade tecnológica e industrial, ao invés de poucos oligopólios, é benéfico para inovação, competição e ecossistema de talentos, além de fortalecer a vantagem coletiva na disputa com os EUA.

O parceiro da Andreessen Horowitz (a16z), Martin Casado, observou que atualmente, entre as startups de IA que buscam financiamento no Vale do Silício, 80% usam modelos de código aberto chineses em seus pitchs.

Vantagem competitiva: por que os Tokens chineses são tão baratos, com custos inferiores a 1/10 dos modelos americanos?

A razão pela qual os modelos chineses conquistaram rapidamente os desenvolvedores globais, além de desempenho comparável ou superior aos modelos internacionais de ponta, é sua competitividade de custos, que é inegável.

Por exemplo, na plataforma OpenRouter, o custo de processamento de entrada (Input) de MiniMax M2.5 e Zhi Pu GLM-5 é de 0,3 dólares por milhão de Tokens. Em contrapartida, o produto americano Claude Opus4.6 custa até 5 dólares por milhão de Tokens, cerca de 16,7 vezes mais caro.

No processamento de saída (Output), a diferença de custos é ainda maior: MiniMax M2.5 custa 1,1 dólar por milhão de Tokens, Zhi Pu GLM-5, 2,55 dólares, enquanto Claude Opus4.6 chega a 25 dólares, aproximadamente 22,7 e 9,8 vezes mais caros, respectivamente.

Essa enorme diferença de custos influencia diretamente as decisões econômicas dos desenvolvedores ao escolherem APIs.

Essa disparidade se deve principalmente à inovação na arquitetura de algoritmos. Segundo Li Qing, diretor da Frost & Sullivan na China, a arquitetura “Mixture-of-Experts (MoE)” é uma das principais razões pelas quais os modelos chineses conseguem reduzir significativamente os custos de inferência. Modelos como DeepSeek e Alibaba’s Tongyi Qianwen 3.5-Plus já adotam amplamente a arquitetura MoE.

A arquitetura MoE divide um grande modelo em múltiplos “especialistas” menores e um “mecanismo de gating”. Apesar de o modelo ter bilhões de parâmetros, o gating avalia a tarefa e ativa apenas uma pequena parte dos especialistas, reduzindo o uso de memória e recursos computacionais. Essa ativação sob demanda pode diminuir o uso de memória em 60% e aumentar a taxa de processamento em até 19 vezes, gerando uma redução de custos significativa.

Além da inovação arquitetônica, os fabricantes chineses também exploram a “integração vertical”, combinando algoritmos, infraestrutura de nuvem e chips de IA de forma integrada para reduzir ainda mais os custos por Token. Por exemplo, o sistema “Tongyi-Cloud-Chip” da Alibaba otimiza o uso de hardware e algoritmos de escalonamento, reduzindo custos de infraestrutura e aumentando a eficiência.

O banco de investimentos JPMorgan prevê que, de 2025 a 2030, o consumo de Tokens na China crescerá a uma taxa composta anual de 330%, atingindo um crescimento de 370 vezes em cinco anos.

A transformação de valor: Tokens deixam de ser apenas “tráfego” na internet para se tornarem “combustível” na era da IA

O crescimento exponencial no consumo de Tokens reflete uma mudança profunda no modo de uso da IA. A IA evolui de uma ferramenta de perguntas e respostas para uma “ferramenta de produtividade” capaz de participar de fluxos de trabalho complexos e realizar tarefas avançadas.

O relatório recente do China United Securities introduziu o conceito de “inflação de Tokens”, que não significa que Tokens fiquem mais caros, mas que o consumo por usuário e por unidade de tempo aumenta estruturalmente. Isso ocorre por três motivos principais:

Primeiro, a demanda central dos usuários migrou de “perguntas” para “trabalho”, como reescrever códigos, gerar documentos, fazer testes, etc., tarefas que consomem muitos Tokens.

Segundo, a ascensão e popularização de agentes de IA amplificam o consumo de Tokens, pois esses agentes planejam, buscam, executam e refletem, chamando o modelo várias vezes.

Terceiro, o aumento na complexidade de raciocínio e na profundidade das tarefas também eleva o consumo de Tokens, mas, para os usuários, isso significa maior sucesso e menor retrabalho, incentivando maior investimento de Tokens para maior eficiência.

Essas mudanças indicam que Tokens deixam de ser “fluxo de tráfego” de custo marginal quase zero na internet para se tornarem “combustível” essencial na execução de tarefas produtivas.

Essa tendência é corroborada pelos principais fabricantes de chips do mundo. O CEO da Nvidia, Jensen Huang, destacou em sua teleconferência de resultados em 26 de fevereiro que “computação é receita” e “inferência é receita”. Sem capacidade de processamento, não há geração de Tokens, e sem Tokens, não há crescimento de receita. Na era da IA, o desempenho de inferência determina a receita, pois a geração eficiente de Tokens é fundamental para monetizar a IA. Com os limites de energia nos data centers cada vez mais evidentes, “performance por watt” tornou-se uma métrica-chave de eficiência e receita.

Li Qing afirmou ao 每经 que o modelo de negócios de serviços de IA evolui de uma simples cobrança por uso para um sistema híbrido de “combustível + resultados”. O preço do Token, como “combustível”, tende a cair com avanços tecnológicos e escala, enquanto as empresas preferem pagar por “resultados” diretos, impulsionando modelos de assinatura e pagamento por desempenho.

Ela também prevê que os preços de serviços de IA no futuro serão altamente personalizados e flexíveis. Com a chegada da era dos agentes, tarefas de diferentes níveis de complexidade exigirão modelos de precificação variados, e uma estrutura de preços multidimensional e dinâmica será a norma.

(Artigo originalmente publicado no Daily Economic News)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos