Recentemente, todo o setor de tecnologia e o mundo dos investimentos estão de olho na mesma coisa: como as aplicações de IA estão a «matar» o SaaS tradicional. Desde que @AnthropicAI, com o Claude Cowork, demonstrou como pode facilmente ajudar a escrever emails, fazer apresentações em PPT e analisar tabelas Excel, uma onda de pânico sobre a «morte do software» começou a se espalhar. Isso é realmente assustador, mas se o seu olhar ficar só aqui, pode estar a perder o verdadeiro grande terremoto.
É como se todos nós olhássemos para o céu, atentos às batalhas de drones, enquanto ninguém percebe que a placa continental sob os nossos pés está a mover-se silenciosamente. A verdadeira tempestade está escondida debaixo da superfície, num canto que a maioria das pessoas não vê: a base de poder de computação que sustenta todo o mundo da IA está a passar por uma «revolução silenciosa».
E essa revolução pode fazer com que o vendedor de ferramentas de IA — a Nvidia @nvidia — termine esse grande evento que ela organizou com tanto cuidado, mais cedo do que todos imaginavam.
Duas rotas de revolução que se cruzam
Esta revolução não é um evento único, mas sim a interseção de duas linhas de tecnologia aparentemente independentes. Elas assemelham-se a duas forças que cercam a Nvidia, formando uma pressão de pinça sobre o seu domínio de GPU.
A primeira é a revolução do enxugamento de algoritmos.
Já pensou que um supercérebro, ao pensar, realmente precisa ativar todas as suas células cerebrais? Claramente que não. A DeepSeek percebeu isso e criou uma arquitetura de MoE (modelo de especialistas mistos).
Pode imaginar isso como uma empresa que emprega centenas de especialistas em diferentes áreas. Mas, quando há uma reunião para resolver um problema, só precisa chamar duas ou três pessoas mais relevantes, em vez de fazer uma tempestade de ideias com todos. Essa é a inteligência do MoE: permite que um modelo enorme, a cada cálculo, ative apenas uma pequena parte dos «especialistas», economizando imenso poder de computação.
E qual é o resultado? O modelo DeepSeek-V2, que nominalmente tem 236 bilhões de «especialistas» (parâmetros), só ativa cerca de 21 bilhões de «especialistas» por vez — menos de 10% do total. E seu desempenho consegue rivalizar com o GPT-4, que precisa de 100% de capacidade. O que isso significa? A capacidade da IA e o consumo de poder de computação estão a desvincular-se!
No passado, todos assumiam que quanto mais forte fosse a IA, mais GPU se consumia. Agora, a DeepSeek mostra que, com algoritmos inteligentes, é possível alcançar o mesmo resultado com apenas uma décima parte do custo. Isso coloca uma grande interrogação sobre a necessidade contínua de GPUs da Nvidia.
A segunda rota é a revolução do «mudança de pista» no hardware.
O trabalho de IA divide-se em duas fases: treino e inferência. O treino é como ir à escola, onde é preciso ler milhares de livros — aí, GPUs de alta potência, com cálculo paralelo, são essenciais. Mas a inferência, que é o uso diário da IA, valoriza mais a velocidade de resposta.
As GPUs têm uma limitação natural na inferência: a memória (HBM) é externa, o que causa atrasos na transferência de dados. É como um cozinheiro que tem os ingredientes na geladeira do outro quarto: precisa correr até lá toda vez que quer cozinhar, mesmo que seja rápido. Empresas como Cerebras e Groq criaram chips de inferência dedicados, com memória SRAM integrada ao chip, eliminando atrasos e permitindo acesso «zero-latência».
O mercado já demonstrou sua preferência com dinheiro de verdade. A OpenAI reclama da performance das GPUs da Nvidia na inferência, mas, ao mesmo tempo, assinou um contrato de 10 bilhões de dólares com a Cerebras para usar seus chips. A Nvidia também entrou em pânico e gastou 20 bilhões de dólares para adquirir a Groq, para não ficar para trás nesta nova corrida.
Quando essas duas rotas se cruzam: uma avalanche de custos
Vamos juntar tudo: um modelo DeepSeek «enxuto», rodando num chip Cerebras «sem atrasos».
O que acontece?
Uma avalanche de custos.
Primeiro, o modelo enxuto é tão pequeno que cabe inteiramente na memória do chip. Sem a limitação da memória externa, a resposta da IA fica incrivelmente rápida. Como resultado, o custo de treino, com a arquitetura MoE, cai 90%, e o de inferência, com hardware dedicado e cálculo esparso, diminui ainda mais — uma ordem de grandeza. No final, o custo total para criar e operar uma IA de nível mundial pode ser apenas 10-15% do que um sistema tradicional de GPU.
Isso não é uma melhoria incremental, é uma mudança de paradigma.
O trono da Nvidia está a ser silenciosamente retirado
Agora você deve entender por que isso é mais perigoso do que a «reação de pânico com o Claude».
A avaliação de dezenas de bilhões de dólares da Nvidia hoje, baseia-se na história simples: a IA é o futuro, e esse futuro depende das GPUs dela. Mas agora, essa base está a ser abalada.
No mercado de treino, mesmo que a Nvidia continue a monopolizar, se os clientes conseguirem fazer o trabalho com uma décima parte das GPUs, o mercado total pode encolher drasticamente.
No mercado de inferência, que é dez vezes maior, a Nvidia não tem vantagem absoluta e enfrenta concorrentes como Google, Cerebras e outros. Até mesmo o maior cliente da Nvidia, a OpenAI, está a fugir.
Assim que Wall Street perceber que as «pás» da Nvidia — as suas ferramentas principais — deixam de ser as únicas ou as melhores opções, o valor baseado na «monopólio eterno» começará a desmoronar. E todos sabemos o que isso significa.
Portanto, os maiores «blefes» do próximo meio ano podem não ser uma IA a eliminar outra, mas uma notícia técnica aparentemente insignificante: uma nova publicação sobre a eficiência do algoritmo MoE, ou um relatório que mostra uma grande fatia de mercado para chips de inferência dedicados, anunciando silenciosamente uma nova fase na guerra pelo poder de computação.
Quando as «pás» do vendedor de ferramentas deixam de ser a única opção, a sua era de ouro pode estar a chegar ao fim.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O próximo terremoto da IA: por que o verdadeiro perigo não é o assassino de SaaS, mas a revolução do poder computacional?
Escrito por: Bruce
Recentemente, todo o setor de tecnologia e o mundo dos investimentos estão de olho na mesma coisa: como as aplicações de IA estão a «matar» o SaaS tradicional. Desde que @AnthropicAI, com o Claude Cowork, demonstrou como pode facilmente ajudar a escrever emails, fazer apresentações em PPT e analisar tabelas Excel, uma onda de pânico sobre a «morte do software» começou a se espalhar. Isso é realmente assustador, mas se o seu olhar ficar só aqui, pode estar a perder o verdadeiro grande terremoto.
É como se todos nós olhássemos para o céu, atentos às batalhas de drones, enquanto ninguém percebe que a placa continental sob os nossos pés está a mover-se silenciosamente. A verdadeira tempestade está escondida debaixo da superfície, num canto que a maioria das pessoas não vê: a base de poder de computação que sustenta todo o mundo da IA está a passar por uma «revolução silenciosa».
E essa revolução pode fazer com que o vendedor de ferramentas de IA — a Nvidia @nvidia — termine esse grande evento que ela organizou com tanto cuidado, mais cedo do que todos imaginavam.
Duas rotas de revolução que se cruzam
Esta revolução não é um evento único, mas sim a interseção de duas linhas de tecnologia aparentemente independentes. Elas assemelham-se a duas forças que cercam a Nvidia, formando uma pressão de pinça sobre o seu domínio de GPU.
A primeira é a revolução do enxugamento de algoritmos.
Já pensou que um supercérebro, ao pensar, realmente precisa ativar todas as suas células cerebrais? Claramente que não. A DeepSeek percebeu isso e criou uma arquitetura de MoE (modelo de especialistas mistos).
Pode imaginar isso como uma empresa que emprega centenas de especialistas em diferentes áreas. Mas, quando há uma reunião para resolver um problema, só precisa chamar duas ou três pessoas mais relevantes, em vez de fazer uma tempestade de ideias com todos. Essa é a inteligência do MoE: permite que um modelo enorme, a cada cálculo, ative apenas uma pequena parte dos «especialistas», economizando imenso poder de computação.
E qual é o resultado? O modelo DeepSeek-V2, que nominalmente tem 236 bilhões de «especialistas» (parâmetros), só ativa cerca de 21 bilhões de «especialistas» por vez — menos de 10% do total. E seu desempenho consegue rivalizar com o GPT-4, que precisa de 100% de capacidade. O que isso significa? A capacidade da IA e o consumo de poder de computação estão a desvincular-se!
No passado, todos assumiam que quanto mais forte fosse a IA, mais GPU se consumia. Agora, a DeepSeek mostra que, com algoritmos inteligentes, é possível alcançar o mesmo resultado com apenas uma décima parte do custo. Isso coloca uma grande interrogação sobre a necessidade contínua de GPUs da Nvidia.
A segunda rota é a revolução do «mudança de pista» no hardware.
O trabalho de IA divide-se em duas fases: treino e inferência. O treino é como ir à escola, onde é preciso ler milhares de livros — aí, GPUs de alta potência, com cálculo paralelo, são essenciais. Mas a inferência, que é o uso diário da IA, valoriza mais a velocidade de resposta.
As GPUs têm uma limitação natural na inferência: a memória (HBM) é externa, o que causa atrasos na transferência de dados. É como um cozinheiro que tem os ingredientes na geladeira do outro quarto: precisa correr até lá toda vez que quer cozinhar, mesmo que seja rápido. Empresas como Cerebras e Groq criaram chips de inferência dedicados, com memória SRAM integrada ao chip, eliminando atrasos e permitindo acesso «zero-latência».
O mercado já demonstrou sua preferência com dinheiro de verdade. A OpenAI reclama da performance das GPUs da Nvidia na inferência, mas, ao mesmo tempo, assinou um contrato de 10 bilhões de dólares com a Cerebras para usar seus chips. A Nvidia também entrou em pânico e gastou 20 bilhões de dólares para adquirir a Groq, para não ficar para trás nesta nova corrida.
Quando essas duas rotas se cruzam: uma avalanche de custos
Vamos juntar tudo: um modelo DeepSeek «enxuto», rodando num chip Cerebras «sem atrasos».
O que acontece?
Uma avalanche de custos.
Primeiro, o modelo enxuto é tão pequeno que cabe inteiramente na memória do chip. Sem a limitação da memória externa, a resposta da IA fica incrivelmente rápida. Como resultado, o custo de treino, com a arquitetura MoE, cai 90%, e o de inferência, com hardware dedicado e cálculo esparso, diminui ainda mais — uma ordem de grandeza. No final, o custo total para criar e operar uma IA de nível mundial pode ser apenas 10-15% do que um sistema tradicional de GPU.
Isso não é uma melhoria incremental, é uma mudança de paradigma.
O trono da Nvidia está a ser silenciosamente retirado
Agora você deve entender por que isso é mais perigoso do que a «reação de pânico com o Claude».
A avaliação de dezenas de bilhões de dólares da Nvidia hoje, baseia-se na história simples: a IA é o futuro, e esse futuro depende das GPUs dela. Mas agora, essa base está a ser abalada.
No mercado de treino, mesmo que a Nvidia continue a monopolizar, se os clientes conseguirem fazer o trabalho com uma décima parte das GPUs, o mercado total pode encolher drasticamente.
No mercado de inferência, que é dez vezes maior, a Nvidia não tem vantagem absoluta e enfrenta concorrentes como Google, Cerebras e outros. Até mesmo o maior cliente da Nvidia, a OpenAI, está a fugir.
Assim que Wall Street perceber que as «pás» da Nvidia — as suas ferramentas principais — deixam de ser as únicas ou as melhores opções, o valor baseado na «monopólio eterno» começará a desmoronar. E todos sabemos o que isso significa.
Portanto, os maiores «blefes» do próximo meio ano podem não ser uma IA a eliminar outra, mas uma notícia técnica aparentemente insignificante: uma nova publicação sobre a eficiência do algoritmo MoE, ou um relatório que mostra uma grande fatia de mercado para chips de inferência dedicados, anunciando silenciosamente uma nova fase na guerra pelo poder de computação.
Quando as «pás» do vendedor de ferramentas deixam de ser a única opção, a sua era de ouro pode estar a chegar ao fim.