Então, há algumas notícias interessantes sobre Groq circulando a respeito do movimento estratégico da NVIDIA no espaço de inferência. Acontece que Jensen Huang acabou de explicar o verdadeiro raciocínio por trás de por que eles foram atrás da Groq em primeiro lugar.



Em dezembro passado, a NVIDIA investiu $20 bilhões para adquirir o negócio de chips de inferência da Groq. O fundador Jonathan Ross e sua equipe principal foram para a NVIDIA, mas o que acontece—a Groq ainda opera de forma independente. Então, na GTC deste março passado, eles mostraram o chip Groq 3 LPU construído com o processo de 4nm da Samsung. Os números de desempenho são bastante impressionantes: 35x a capacidade de inferência por megawatt em modelos de trilhões de parâmetros em comparação com o Blackwell NVL72 da NVIDIA.

Mas o que realmente chamou minha atenção foi a explicação de Huang sobre a dinâmica de mercado que impulsiona isso. Ele está falando sobre como o mercado de inferência está se dividindo em diferentes segmentos. Durante anos, todo mundo focou em uma coisa: maximizar a capacidade de processamento. Mas isso está mudando. A economia de tokens mudou drasticamente. Diferentes usuários agora valorizam tempos de resposta diferentes, e estão dispostos a pagar de acordo.

Huang colocou de forma bastante clara: se você puder oferecer aos desenvolvedores tokens com resposta mais rápida que os tornem mais produtivos, eles pagarão preços premium por essa capacidade. Este é um mercado relativamente novo que surgiu recentemente. Ele está basicamente expandindo a fronteira de Pareto—adicionando um segmento de baixa latência, com preços por token mais altos, ao lado das soluções de alta capacidade de processamento existentes.

É aí que entra a arquitetura LPU da Groq. Ela foi construída para uma latência determinística baixa, o que é quase o oposto do que os GPUs otimizam. Os GPUs dominam na capacidade de processamento. Então, a aquisição da Groq basicamente preenche uma lacuna na estratégia de produtos da NVIDIA. Você pode rodar o mesmo modelo de duas maneiras diferentes: maximizar a capacidade de processamento em GPUs, ou obter uma latência ultra-baixa com a LPU da Groq. Modelos de precificação diferentes para casos de uso diferentes.

As notícias da Groq aqui realmente destacam como o mercado de inferência de IA está amadurecendo além do mero poder de computação bruto. Trata-se de entender o que diferentes clientes realmente precisam e construir a ferramenta certa para cada segmento. Uma jogada bastante inteligente, se você me perguntar.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar