finalmente uma referência que realmente importa.


esqueça o MMLU e as pontuações em matemática.. PinchBench testa qual modelo de IA é melhor a fazer trabalho real.
não responder a perguntas triviais. realmente fazer coisas:
→ procurar informações em várias fontes web
→ criar e agendar reuniões
→ organizar ficheiros no seu computador
→ escrever e gerir emails
testa modelos a funcionar como agentes através do OpenClaw.. ou seja, a IA tem que usar ferramentas, encadear ações e completar tarefas de ponta a ponta.
os resultados são interessantes:
> Gemini 3 Flash lidera com 95,1%
> MiniMax M2.1 logo atrás com 93,6%
> Kimi K2.5 com 93,4%
> Claude Sonnet com 92,7%
> Gemini 3 Pro com 91,7%
> Claude Haiku com 90,8%
> Claude Opus 4.6 com 90,6%
> GPT-5 Nano com 85,8%
a diferença entre o topo e o fundo é de apenas ~10%.. o que significa que a maioria dos modelos de ponta está a ficar bastante bons em tarefas de agentes.
mas a verdadeira conclusão? Gemini Flash.. um modelo leve.. está a superar todos os modelos pesados em trabalho prático de agente. velocidade + uso de ferramentas > inteligência bruta.
este é o tipo de referência que deveria decidir qual modelo usar diariamente.. não algum teste académico com que ninguém se identifica.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar