Ok - por eso nunca debes confiar en los benchmarks de IA.
Un estudio reciente comparó Opus 4.6 (el último modelo de Claude) versus Opus 4.5 en 165 tareas diferentes. La investigación profunda concluyó que Opus 4.6 no mejoró respecto al modelo anterior. Pero Opus 4.6 hizo esto con un 50% del costo y un 50% del tiempo de procesamiento. Aún así, mejoras masivas, solo ten cuidado con los titulares de los benchmarks. La mejor manera de determinar si un modelo es mejor que las iteraciones anteriores es probarlo para tus necesidades específicas. De todos modos, felicitaciones al equipo de Anthropic por esta enorme reducción en costo y tiempo de procesamiento.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Ok - por eso nunca debes confiar en los benchmarks de IA.
Un estudio reciente comparó Opus 4.6 (el último modelo de Claude) versus Opus 4.5 en 165 tareas diferentes.
La investigación profunda concluyó que Opus 4.6 no mejoró respecto al modelo anterior.
Pero Opus 4.6 hizo esto con un 50% del costo y un 50% del tiempo de procesamiento.
Aún así, mejoras masivas, solo ten cuidado con los titulares de los benchmarks.
La mejor manera de determinar si un modelo es mejor que las iteraciones anteriores es probarlo para tus necesidades específicas.
De todos modos, felicitaciones al equipo de Anthropic por esta enorme reducción en costo y tiempo de procesamiento.