A Google revelou publicamente a separação do aprendizado e raciocínio de IA com o TPU 8t·8i… Pode isso abalar o mercado centrado na Nvidia?

robot
Geração de resumo em curso

O Google, para receber a era dos “agentes inteligentes”, mudou sua estratégia de semicondutores de inteligência artificial. Ela abandonou a abordagem anterior de usar um único chip universal para processamento de aprendizagem e raciocínio simultâneos, lançando separadamente o “TPU 8t” para aprendizagem em larga escala e o “TPU 8i” para raciocínio de alta concorrência.

No dia 23 (horário local), durante o evento “Google Cloud Next 2026” realizado em Las Vegas, EUA, a empresa revelou duas semicondutores de IA personalizadas. A companhia afirmou que o mercado de IA está se dividindo rapidamente em uma fase de “construção de modelos” e uma fase de “implantação de modelos em serviços reais”, explicando que os novos TPUs foram projetados para atender a essa mudança de demanda.

Se o anterior “Ironwood TPU” era uma plataforma única voltada para a era do raciocínio, a característica desta geração é que sua estrutura é dualizada. Essa interpretação sugere que a Google acredita que, com a popularização dos agentes de IA, a infraestrutura necessária para treinar modelos maiores e a infraestrutura de raciocínio para executar esses modelos rapidamente na nuvem estão crescendo simultaneamente.

TPU 8t: reforçando desempenho de treinamento em larga escala e eficiência de custos

O TPU 8t é um chip focado em treinamento em larga escala e cargas de trabalho centradas em embeddings. A Google afirmou que o produto usa uma topologia de rede “anel 3D”, que melhora a escalabilidade de grandes clusters. Um único Pod pode conectar até 9600 chips, superior aos 9216 do Ironwood.

Seu núcleo suporta “SparseCore” e operações de ponto flutuante de 4 bits. SparseCore é um acelerador dedicado para lidar com acessos de memória irregulares frequentes durante buscas em grandes modelos de linguagem. A Google afirma que, ao combinar operações de bits baixos, reduziu a carga de largura de banda de memória, mantendo a precisão mesmo com menor capacidade de memória, além de dobrar a taxa de transferência.

Isso acompanha a tendência tecnológica conhecida como “quantização”. Reduzir o número de bits necessários por parâmetro significa que modelos maiores podem ser executados em sistemas com especificações relativamente baixas, além de diminuir o consumo de energia e o espaço físico. A Google declarou que, em ambientes de treinamento em larga escala, o TPU 8t oferece até 2,7 vezes mais desempenho por dólar em comparação ao Ironwood.

TPU 8i: foco na velocidade de raciocínio e capacidade de processamento concorrente

O TPU 8i foi projetado especificamente para a fase de raciocínio, onde modelos treinados são colocados em produção. Ele é especialmente vantajoso na pós-processamento de grandes modelos e no processamento de múltiplas solicitações de usuários simultaneamente.

Segundo a Google, o TPU 8i possui três vezes mais memória de acesso aleatório estático do que o Ironwood. Isso permite acomodar caches de chaves e valores maiores necessários para o raciocínio de grandes modelos de linguagem, acelerando a geração de texto. Além disso, a Google implementou um sistema de inferência chamado “Collectives Acceleration Engine”, que acelera operações de sincronização e redução necessárias na decodificação autoregressiva e no raciocínio de “cadeia de pensamento”.

A estrutura de conexão entre os chips também foi redesenhada. A Google introduziu uma topologia de rede personalizada chamada “Boardfly ICI”, que pode interconectar até 1152 chips. O objetivo é tornar a comunicação entre todos os chips mais eficiente, reduzindo a distância e o número de saltos na transmissão de dados. A Google afirmou que, na comunicação “All-to-All” essencial para modelos de linguagem de mistura de especialistas e modelos de raciocínio, o número total de saltos pode ser reduzido em até 50%.

A relação custo-benefício também é um ponto destacado. A Google explicou que o design do TPU 8i visa oferecer cerca de 80% de melhoria no desempenho por dólar em ambientes de baixa latência, em comparação ao Ironwood, sendo especialmente útil para serviços de modelos de ponta de mistura de especialistas de grande escala.

A jogada da Google: pode desafiar o mercado centrado na NVIDIA?

A Google acrescentou que a eficiência energética do TPU 8t e do TPU 8i é o dobro da geração anterior. A eficiência energética é uma variável crucial para a rentabilidade de grandes data centers de IA, tornando essa melhoria de grande importância.

Este lançamento não é apenas a apresentação de um novo semicondutor, mas um sinal de que a Google está oficialmente diferenciando sua estratégia de infraestrutura de IA em “treinamento” e “raciocínio”. Com a competição por serviços de IA se deslocando do desempenho do modelo para custos operacionais, velocidade de resposta e processamento concorrente, a Google busca fortalecer sua presença na nuvem através dos TPUs.

Analistas acreditam que a variável decisiva será a velocidade de adoção pelos clientes finais e a compatibilidade de software ao competir com o ecossistema centrado na NVIDIA. No entanto, com a popularização dos agentes de IA, a demanda por semicondutores de treinamento e de raciocínio está crescendo simultaneamente, e a estratégia dual de TPUs da Google pode se tornar um ponto de inflexão importante na competição por infraestrutura de IA no futuro.

Notas do TP AI Este artigo é um resumo baseado no modelo de linguagem TokenPost.ai. Pode haver omissões ou imprecisões nos conteúdos principais.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar