2026-02-10 22:32:31

Ок — вот почему никогда не стоит доверять бенчмаркам ИИ.

Недавнее исследование сравнило Opus 4.6 (последнюю модель Claude) и Opus 4.5 по 165 различным задачам.
Глубокое исследование пришло к выводу, что Opus 4.6 не лучше предыдущей модели.
Но Opus 4.6 достиг этого за 50% затрат и 50% времени.
Все равно это огромные улучшения, просто будьте осторожны с заголовками бенчмарков.
Лучший способ определить, лучше ли модель предыдущих версий — протестировать её для ваших конкретных нужд.
В любом случае, молодцы команда Anthropic за это значительное снижение затрат и времени выполнения.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .