Ок — вот почему никогда не стоит доверять бенчмаркам ИИ.
Недавнее исследование сравнило Opus 4.6 (последнюю модель Claude) и Opus 4.5 по 165 различным задачам. Глубокое исследование пришло к выводу, что Opus 4.6 не лучше предыдущей модели. Но Opus 4.6 достиг этого за 50% затрат и 50% времени. Все равно это огромные улучшения, просто будьте осторожны с заголовками бенчмарков. Лучший способ определить, лучше ли модель предыдущих версий — протестировать её для ваших конкретных нужд. В любом случае, молодцы команда Anthropic за это значительное снижение затрат и времени выполнения.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Ок — вот почему никогда не стоит доверять бенчмаркам ИИ.
Недавнее исследование сравнило Opus 4.6 (последнюю модель Claude) и Opus 4.5 по 165 различным задачам.
Глубокое исследование пришло к выводу, что Opus 4.6 не лучше предыдущей модели.
Но Opus 4.6 достиг этого за 50% затрат и 50% времени.
Все равно это огромные улучшения, просто будьте осторожны с заголовками бенчмарков.
Лучший способ определить, лучше ли модель предыдущих версий — протестировать её для ваших конкретных нужд.
В любом случае, молодцы команда Anthropic за это значительное снижение затрат и времени выполнения.