Сотрудники OpenAI публично обвинили XAI в том, что результаты тестирования модели искусственного интеллекта Grok3 имеют вводящие в заблуждение Бенчмарк

robot
Генерация тезисов в процессе

ChainCatcher сообщает, согласно отчету Jinse, сотрудник OpenAI публично обвинил компанию XAI, принадлежащую Маску, в том, что результаты тестирования модели искусственного интеллекта Grok3, выпущенной компанией, имеют вводящий в заблуждение Бенчмарк. В то же время сооснователь XAI Игорь Бабушкин настаивает на том, что компания не совершала ничего нечестного. Графики XAI показывают, что две версии Grok3 - Grok3 Reasoning Beta и Grok3 mini Reasoning - превзошли текущую самую мощную модель o3-mini-high от OpenAI на AIME 2025. Однако сотрудники OpenAI быстро указали на платформе X, что графики XAI не включают оценку o3-mini-high в условиях "cons@64" для AIME 2025. Бабушкин на платформе X заявил, что OpenAI ранее также публиковало вводящие в заблуждение графики тестирования, аналогичные Бенчмарк. Несмотря на то, что эти графики были использованы для сравнения производительности их собственных моделей.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить