O Grok acabou de entrar em modo fera em todas as frentes. Conquistou quatro primeiros lugares num só dia.
Liderou o ranking do Pax Historia. Superou o 𝜏²-Bench Telecom na utilização de ferramentas agenticas. Dominou a Alpha Arena Season 1.5. E está a liderar o uso de tokens no OpenRouter—tanto nos gráficos diários como semanais.
Isto não é progresso incremental. Isto é uma afirmação. Quando um modelo vence vários benchmarks desta forma, a diferença de desempenho deixa de ser subtil. Quer esteja a avaliar profundidade de conversação, automação de tarefas ou métricas de implementação no mundo real, o padrão é claro.
A concorrência está a aquecer rapidamente.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O Grok acabou de entrar em modo fera em todas as frentes. Conquistou quatro primeiros lugares num só dia.
Liderou o ranking do Pax Historia. Superou o 𝜏²-Bench Telecom na utilização de ferramentas agenticas. Dominou a Alpha Arena Season 1.5. E está a liderar o uso de tokens no OpenRouter—tanto nos gráficos diários como semanais.
Isto não é progresso incremental. Isto é uma afirmação. Quando um modelo vence vários benchmarks desta forma, a diferença de desempenho deixa de ser subtil. Quer esteja a avaliar profundidade de conversação, automação de tarefas ou métricas de implementação no mundo real, o padrão é claro.
A concorrência está a aquecer rapidamente.