Em 23 de fevereiro, um funcionário da OpenAI acusou publicamente a empresa xAI de Elon Musk, dizendo que os resultados do teste Referência do mais recente modelo de IA Grok3 divulgado por ela eram enganosos. Em resposta, o cofundador da xAI, Igor Babushkin, insistiu que a empresa não estava errada. Os gráficos da xAI mostram que duas versões do Grok3 – Grok3 Reasoning Beta e Grok3 mini Reasoning – superaram o modelo atualmente mais forte disponível da OpenAI, o3-mini-high, no AIME 2025. No entanto, os funcionários da OpenAI foram rápidos em apontar na plataforma X que o gráfico da xAI não incluía a pontuação AIME 2025 de o3-mini-high sob condições "cons@64". Babushkin argumenta na plataforma X que a OpenAI publicou gráficos de teste de referência igualmente enganosos no passado. Embora esses gráficos sejam usados para comparar o desempenho de seus próprios modelos.
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Funcionários da OpenAI publicamente acusam os resultados do teste Referência da Grok3 de serem enganosos
Em 23 de fevereiro, um funcionário da OpenAI acusou publicamente a empresa xAI de Elon Musk, dizendo que os resultados do teste Referência do mais recente modelo de IA Grok3 divulgado por ela eram enganosos. Em resposta, o cofundador da xAI, Igor Babushkin, insistiu que a empresa não estava errada. Os gráficos da xAI mostram que duas versões do Grok3 – Grok3 Reasoning Beta e Grok3 mini Reasoning – superaram o modelo atualmente mais forte disponível da OpenAI, o3-mini-high, no AIME 2025. No entanto, os funcionários da OpenAI foram rápidos em apontar na plataforma X que o gráfico da xAI não incluía a pontuação AIME 2025 de o3-mini-high sob condições "cons@64". Babushkin argumenta na plataforma X que a OpenAI publicou gráficos de teste de referência igualmente enganosos no passado. Embora esses gráficos sejam usados para comparar o desempenho de seus próprios modelos.