Entrevista mais recente de Jensen Huang (parte 2): Porque é que a NVIDIA não faz ela própria um Hyperscaler?

ChainNewsAbmedia

No segundo segmento da entrevista de Huang Renxun, ele respondeu directamente às ameaças que a TPU e a ASIC representam para a NVIDIA. Sublinhou que o que a NVIDIA faz não é apenas um único chip de IA, mas sim uma plataforma de computação acelerada; a ênfase está na integração de todo o ecossistema. Tal como na guerra dos chips entre os EUA e a China, a corrida da IA não se decide em lances isolados; importa saber se toda a pilha tecnológica consegue crescer em simultâneo.

Perante a crítica: «A base da IA é, em essência, uma enorme quantidade de multiplicações de matrizes. Porque não deixar que uma arquitectura mais especializada como a TPU assuma a liderança?», a resposta de Huang Renxun é: a multiplicação de matrizes é importante, mas não é tudo o que constitui a IA. Do novo mecanismo de attention, à fusão de SSM híbrida, diffusion e autoregressive, até à execução distribuída dos modelos e à inovação arquitectónica, o progresso da IA surge muitas vezes de inovação algorítmica, e não apenas de empurrar a lei de Moore com hardware.

Já que a NVIDIA tem grandes reservas de caixa e também já participou profundamente na infra-estrutura e na camada de modelos de IA, através de investimentos na CoreWeave, Nebius e Nscale, e até OpenAI e Anthropic, porque é que não entra directamente em cena como fornecedor de serviços em nuvem? A resposta de Huang Renxun volta à mesma frase: fazer o máximo do que é necessário e o mínimo do que não é. Isto não se enquadra no âmbito de «se nós não fizermos, então ninguém fará».

TPU e ASIC representam ameaças, mas o campo de batalha da NVIDIA é maior

No que diz respeito à tendência da Google TPU, da AWS Trainium, e até da OpenAI, Anthropic e de outros grandes clientes que desenvolvem internamente ou adoptam aceleradores alternativos, Huang Renxun não demonstrou uma postura defensiva; pelo contrário, por diversas vezes levou o foco de volta à ideia de que «a NVIDIA não é uma única ficha de chip de IA, mas sim uma plataforma de computação acelerada».

Ele sublinha que a NVIDIA constrói accelerated computing, e não apenas tensor processing. A IA é, certamente, uma das aplicações mais importantes hoje, mas as GPUs e o CUDA conseguem tratar muito mais do que IA: incluem dinâmica molecular, dinâmica quântico-cromodinâmica, processamento de dados, dinâmica de fluidos, física de partículas, descoberta de fármacos, geração de imagens e várias computações científicas. Isto faz com que a NVIDIA tenha, por natureza, maior alcance no mercado do que uma ASIC desenhada para um único tipo de carga de trabalho.

Perante a crítica: «A base da IA é, em essência, uma enorme quantidade de multiplicações de matrizes. Porque não deixar que uma arquitectura mais especializada como a TPU assuma a liderança?», a resposta de Huang Renxun é:

A multiplicação de matrizes é importante, mas não é tudo o que constitui a IA. Do novo mecanismo de attention, à fusão de SSM híbrida, diffusion e autoregressive, até à execução distribuída dos modelos e à inovação arquitectónica, o progresso da IA surge muitas vezes de inovação algorítmica, e não apenas de empurrar a lei de Moore com hardware.

Ele falou de forma muito directa: se dependêssemos apenas do escalonamento dos transístores, então o aumento seria, em média, de cerca de 25% por ano; mas a NVIDIA, de Hopper a Blackwell, consegue saltos de eficiência energética na ordem das 35 vezes, ou até 50 vezes. Isso não se deve a uma simples questão de processo de fabrico, mas sim a um desenho conjunto que envolve modelos, algoritmos, redes, memória, arquitectura de sistemas e o CUDA.

Por isso, Huang Renxun descreve a NVIDIA como uma «empresa de design extremo em co-projecto». Não é apenas que a NVIDIA faça GPUs; ela altera em simultâneo o processador, a interligação, a rede, as bibliotecas, os algoritmos e todo o sistema. Sem essa camada de software altamentre programável que é o CUDA, seria difícil concretizar uma optimização tão ampla e transversal.

O valor do CUDA: base instalada, confiança e universalidade global

Quando o apresentador questiona: «Já que grandes clientes como OpenAI, Anthropic, Google e AWS já escrevem os kernels por conta própria e optimizam as frameworks, ainda faz sentido o CUDA ter uma barreira de protecção tão forte?» Huang Renxun responde por três ângulos.

Primeiro, a integridade e fiabilidade do ecossistema. A NVIDIA consegue fornecer, com grande suporte de base, muitas ajudas para frameworks como Triton, vLLM e SGLang, permitindo que os investigadores construam em cima de uma base já devidamente verificada. Para os programadores, o que mais se teme não é escrever algo errado por si mesmo, mas sim não conseguir determinar se o erro está na sua própria implementação ou na plataforma subjacente. Um dos valores do CUDA é precisamente este: já foi «testado exaustivamente», sendo suficientemente digno de confiança.

Segundo, a enorme base instalada. Huang Renxun foi directo: se és um programador de frameworks ou um programador de modelos, o que mais queres é a install base. Não vais querer escrever software apenas para uso próprio; vais querer que funcione, na medida do possível, em mais máquinas. De A10, A100 a H100, H200, e depois para a nuvem e para a rede local, para robôs e estações de trabalho, o CUDA está praticamente em todo o lado. Esta base instalada significa que, com um único desenvolvimento, podes cobrir uma grande quantidade de sistemas em todo o mundo.

Terceiro, a universalidade entre nuvens e entre cenários. Huang Renxun aponta que a NVIDIA é uma das poucas plataformas de computação que conseguem existir simultaneamente em todos os principais ambientes de nuvem e no on-prem. Para empresas de IA, isto significa que não precisam de ficar cedo demasiado presas a um fornecedor único de serviços em nuvem, e é também mais fácil fazer o deployment do produto em diferentes mercados e cenários.

Em outras palavras, o valor do CUDA não é apenas «conveniência na cadeia de ferramentas»; é antes a combinação entre integridade do ecossistema, grande base instalada global e universalidade entre cenários, formando um ciclo difícil de abalar facilmente.

Margens brutas elevadas não vêm de uma «taxa de software», vêm de «tokens produzidos por cada watt» e do custo total de detenção

Perante as críticas externas de que a NVIDIA consegue manter margens brutas elevadas muito graças ao monopólio do CUDA; e que, no futuro, se mais clientes tiverem capacidade de escrever kernels por conta própria e construir uma pilha alternativa de software, as margens brutas poderão ser corroídas, a resposta de Huang Renxun é bastante confiante.

Ele aponta que o pessoal de engenharia interno alocado pela NVIDIA para apoiar os principais laboratórios de IA é «demais para surpreender», porque as GPUs não são tão fáceis de dominar como os CPUs. Huang Renxun compara o CPU a um Cadillac: estável, fácil de conduzir, e ao alcance de toda a gente; já os aceleradores da NVIDIA são mais como um carro de Fórmula 1: em teoria, toda a gente consegue conduzir, mas para espremer o desempenho até ao limite, é necessária uma capacidade profissional muito elevada.

A NVIDIA também usa AI para gerar e optimizar os seus próprios kernels em grande escala; por isso, durante a calibragem conjunta com os clientes, frequentemente conseguem elevar em 50%, 2 vezes ou até 3 vezes o desempenho de um determinado modelo ou stack. Para clientes que têm um grande parque de GPUs, esta optimização equivale quase a duplicar as receitas directamente.

Huang Renxun avança ainda mais ao defender que a plataforma da NVIDIA tem o melhor performance por TCO em todo o mundo, ou seja, a melhor relação custo total de detenção versus eficiência. Ele diz que ninguém consegue realmente provar que a TPU, a Trainium ou outras plataformas sejam superiores à NVIDIA em termos de custo total e desempenho; e também faltam demonstrações públicas, credíveis e comparáveis em sentido positivo no mercado.

Na perspectiva dele, o sucesso da NVIDIA não se deve fundamentalmente a os clientes ficarem presos ao CUDA, mas sim a ela conseguir, sob a mesma energia e o mesmo gasto de capital, produzir o maior número de tokens e, em seguida, convertê-los nas maiores receitas. Para clientes a construir centros de dados de nível 1GW, o mais importante não é se cada chip individual é barato ou não; é se todo o centro de dados consegue gerar as maiores receitas. Enquanto a NVIDIA continue globalmente a ser a melhor em tokens por watt e em performance por dólar, as margens brutas têm uma justificação.

Porque é que a NVIDIA não se torna ela própria um hyperscaler?

Já que a NVIDIA tem grandes reservas de caixa e também já participou profundamente na infra-estrutura e na camada de modelos de IA através de investimentos na CoreWeave, Nebius e Nscale, e até OpenAI e Anthropic, por que é que não entra directamente em cena como fornecedor de serviços em nuvem?

A resposta de Huang Renxun continua a ser a mesma frase: «fazer o máximo do que é necessário, e o mínimo do que não é».

Se a NVIDIA não fizer CUDA, NVLink, CUDA-X, bibliotecas de domínios e plataformas de base, então provavelmente nada disso seria feito por ninguém; portanto, a NVIDIA tem de o fazer ela própria. Mas, se for um serviço em nuvem, já há muitos no mundo — e isto não se enquadra no âmbito de «se nós não fizermos, ninguém fará».

No entanto, quando novos tipos de prestadores de serviços em nuvem de IA ainda são frágeis e possivelmente precisam de um empurrão para descolar, a NVIDIA está disposta a fornecer dinheiro, abastecimento e apoio técnico para ajudar a que este ecossistema cresça. Ou seja, a NVIDIA está disposta a apoiar o ecosystem, mas não quer tornar-se ela própria um financier ou um hyperscaler.

Quanto a investir em empresas de modelos como OpenAI e Anthropic, Huang Renxun também reconhece que este é, de facto, um resultado de aprendizagem da NVIDIA nos últimos anos. No passado, a NVIDIA não tinha percebido que empresas de modelos base como OpenAI e Anthropic, nos seus estágios iniciais, nem sequer conseguiam cumprir a densidade de capital necessária apenas com o modelo tradicional de VC. Quando ele realmente entendeu isto, foi quando percebeu que, se tivesse uma oportunidade, poderia ter entrado mais cedo para apoiar.

Ele chegou mesmo a admitir que isto foi um dos seus erros de julgamento: «na altura, não compreendi em profundidade; sem o apoio de grandes empresas de tecnologia ou capital em nível semelhante, estas empresas dificilmente conseguiriam sequer existir.» Hoje, com a NVIDIA já numa escala maior, ele explica que não voltará a cometer o mesmo erro.

O problema da China: a parte mais aguda de todo o debate

A parte mais intensa de toda a entrevista, em termos de ataque e defesa, centrou-se na China e nas restrições à exportação de chips. A posição do apresentador é que a capacidade de computação em IA é um bem de utilização directa no treino e na implementação de modelos de alto risco: se a China obtiver mais capacidade de computação avançada, poderá construir mais rapidamente modelos capazes de atacar redes, explorar vulnerabilidades, etc., o que constituiria um risco real para a segurança nacional dos EUA e para a segurança das empresas.

Huang Renxun não nega que a IA tenha riscos, nem nega que os EUA devam continuar a manter a liderança; mas opõe-se fortemente a equiparar chips de IA a materiais de armas nucleares, ou a teses extremas como «se vender um pouco mais, vai acontecer algo».

Os seus argumentos centrais são vários.

Em primeiro lugar, ele considera que a China não está num vazio de capacidade de computação. A China tem enormes recursos energéticos, capacidade de fabrico de chips, infra-estruturas de comunicações e de rede, e também tem uma proporção muito grande de talentos de investigação em IA a nível global. Na narrativa de Huang Renxun, a China não é «se não conseguir chips da NVIDIA, não consegue desenvolver IA»; é antes «se não conseguir o melhor, usa o seu próprio e é forçada a construir mais rapidamente uma pilha tecnológica local».

Em segundo lugar, ele acredita que o efeito colateral das restrições à exportação é obrigar os modelos open source, o ecossistema e a indústria de chips da China a afastarem-se aceleradamente da pilha tecnológica dos EUA. Na sua visão, este é o risco que os EUA deveriam estar mais dispostos a temer a longo prazo. Porque a IA não é só modelos; inclui também a camada de chips, a camada de ferramentas de desenvolvimento, a camada de ecossistema open source, a camada de aplicações e toda a pilha. Se os EUA, para proteger uma certa camada, por exemplo as empresas de modelos mais na vanguarda, sacrificar o impacto sobre o mercado chinês da indústria de chips e do ecossistema de programadores, a longo prazo poderá acontecer o oposto: os EUA podem perder posições na guerra de padrões e plataformas a nível global.

A China é o segundo maior mercado tecnológico do mundo e um dos maiores contribuidores globais para software e modelos open source. Se os EUA desistirem activamente desta fatia do mercado, equivalerá a empurrar um grupo inteiro de programadores para uma outra pilha tecnológica. Isto não só prejudica a NVIDIA, como prejudica toda a indústria tecnológica dos EUA e a segurança nacional.

Terceiro, ele insiste repetidamente que o mundo não é uma sequência de inferências extremas de soma zero e sem limites. Os EUA, claro, devem ter mais, melhor e mais cedo capacidade de computação; ele concorda completamente. Mas isso não significa que os EUA devam abandonar activamente o segundo maior mercado do mundo, ou descrever a IA como uma espécie de arma absoluta semelhante a urânio enriquecido. Para ele, narrativas demasiado extremas não só não ajudam na formulação de políticas, como podem até assustar talentos, enfraquecer a confiança na indústria e, no fim, fazer com que os EUA percam a sua vantagem competitiva.

Ele chegou mesmo a trazer esta questão de volta ao contexto de políticas da indústria interna: «se os EUA, por medo, militarizarem demasiado a IA, isso também fará com que mais pessoas resistam a investir em software, engenharia e áreas relacionadas.» Na sua perspectiva, este tipo de política baseada no medo é uma «mentalidade de perdedor», e não a postura que um país deveria ter para liderar uma revolução tecnológica.

O que Huang Renxun realmente quer dizer é: «a corrida da IA não é uma questão de vitória num único ponto; é preciso ver se toda a pilha tecnológica consegue crescer ao mesmo tempo».

Este artigo A mais recente entrevista de Huang Renxun (parte inferior): Porque é que a NVIDIA não faz ela própria um Hyperscaler? apareceu pela primeira vez em Lianxin ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário