Habrá mucha gente con dolor de cabeza por el coste de inferencia de los LLM, pero últimamente está llamando la atención una técnica llamada speculative sampling.



El principio es el siguiente: un modelo pequeño predice primero el resultado y, después, el modelo grande objetivo lo valida de una sola vez mediante procesamiento paralelo en GPU. Como se puede reducir el número de llamadas al modelo objetivo hasta más de 5 veces, el coste de inferencia baja drásticamente.

Piensa en ello como si el modelo draft generara rápidamente un borrador y el modelo principal solo se encargara de validar de forma eficiente. La clave es que puedes ahorrar recursos computacionales manteniendo la calidad de salida intacta.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
MEVSandwichMakervip
· hace8h
Así los costes pueden reducirse, ya hacía falta este tipo de jugada ingeniosa.
Ver originalesResponder0
liquidation_watchervip
· hace8h
Los modelos pequeños hacen los borradores y los modelos grandes revisan el trabajo; este sistema de división de tareas es realmente increíble. Si los costes se pueden reducir a una quinta parte, ¿quién podría resistirse?
Ver originalesResponder0
ruggedNotShruggedvip
· hace9h
¿Una reducción de costes de 5 veces? Si realmente pueden mantener una producción estable, esos pequeños equipos ahogados por los costes de inferencia tendrían una oportunidad de salvarse.
Ver originalesResponder0
MetaverseMigrantvip
· hace9h
Ja, otra vez la típica optimización de costes. Este speculative sampling sí que tiene su gracia... Un modelo pequeño hace el trabajo preliminar y el modelo grande se encarga de la revisión final, parece una cadena de montaje. Una reducción de costes de 5 veces suena un poco exagerado, pero si realmente ahorra dinero, pues adelante.
Ver originalesResponder0
AirdropHuntressvip
· hace9h
Este enfoque es interesante, tenemos que analizar los detalles: ¿un modelo pequeño como delantero y un modelo grande como posterior realmente pueden reducir el coste a una quinta parte? ¿Cómo se ha verificado con datos? No vaya a ser el típico caso de datos de artículo vs resultados reales diferentes. Lo importante es si la calidad de salida realmente no ha disminuido; en esto solo me fío de los datos de pruebas de estrés en condiciones reales.
Ver originalesResponder0
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)