El modelo Sonnet con el asesor Opus muestra mejoras en el rendimiento en la evaluación multilingüe de SWE-bench

ME News Noticias, 10 de abril (UTC+8), recientemente, un resultado de prueba de referencia mostró que, en la evaluación Multilingüe de SWE-bench, el modelo Sonnet equipado con el asesor Opus obtuvo una puntuación 2.7 puntos porcentuales más alta que el modelo Sonnet que funciona de manera independiente. Al mismo tiempo, su costo de cálculo por tarea individual se redujo en un 11.9%. Esta información fue publicada por WesRoth en Twitter. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado