Habrá mucha gente con dolor de cabeza por el coste de inferencia de los LLM, pero últimamente está llamando la atención una técnica llamada speculative sampling.
El principio es el siguiente: un modelo pequeño predice primero el resultado y, después, el modelo grande objetivo lo valida de una sola vez mediante procesamiento paralelo en GPU. Como se puede reducir el número de llamadas al modelo objetivo hasta más de 5 veces, el coste de inferencia baja drásticamente.
Piensa en ello como si el modelo draft generara rápidamente un borrador y el modelo principal solo se encargara de validar de forma eficiente. La clave es que puedes ahorrar recursos computacionales manteniendo la calidad de salida intacta.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
9 me gusta
Recompensa
9
5
Republicar
Compartir
Comentar
0/400
MEVSandwichMaker
· hace8h
Así los costes pueden reducirse, ya hacía falta este tipo de jugada ingeniosa.
Ver originalesResponder0
liquidation_watcher
· hace8h
Los modelos pequeños hacen los borradores y los modelos grandes revisan el trabajo; este sistema de división de tareas es realmente increíble. Si los costes se pueden reducir a una quinta parte, ¿quién podría resistirse?
Ver originalesResponder0
ruggedNotShrugged
· hace9h
¿Una reducción de costes de 5 veces? Si realmente pueden mantener una producción estable, esos pequeños equipos ahogados por los costes de inferencia tendrían una oportunidad de salvarse.
Ver originalesResponder0
MetaverseMigrant
· hace9h
Ja, otra vez la típica optimización de costes. Este speculative sampling sí que tiene su gracia... Un modelo pequeño hace el trabajo preliminar y el modelo grande se encarga de la revisión final, parece una cadena de montaje. Una reducción de costes de 5 veces suena un poco exagerado, pero si realmente ahorra dinero, pues adelante.
Ver originalesResponder0
AirdropHuntress
· hace9h
Este enfoque es interesante, tenemos que analizar los detalles: ¿un modelo pequeño como delantero y un modelo grande como posterior realmente pueden reducir el coste a una quinta parte? ¿Cómo se ha verificado con datos? No vaya a ser el típico caso de datos de artículo vs resultados reales diferentes. Lo importante es si la calidad de salida realmente no ha disminuido; en esto solo me fío de los datos de pruebas de estrés en condiciones reales.
Habrá mucha gente con dolor de cabeza por el coste de inferencia de los LLM, pero últimamente está llamando la atención una técnica llamada speculative sampling.
El principio es el siguiente: un modelo pequeño predice primero el resultado y, después, el modelo grande objetivo lo valida de una sola vez mediante procesamiento paralelo en GPU. Como se puede reducir el número de llamadas al modelo objetivo hasta más de 5 veces, el coste de inferencia baja drásticamente.
Piensa en ello como si el modelo draft generara rápidamente un borrador y el modelo principal solo se encargara de validar de forma eficiente. La clave es que puedes ahorrar recursos computacionales manteniendo la calidad de salida intacta.