2025-12-06 09:28:24

Habrá mucha gente con dolor de cabeza por el coste de inferencia de los LLM, pero últimamente está llamando la atención una técnica llamada speculative sampling.

El principio es el siguiente: un modelo pequeño predice primero el resultado y, después, el modelo grande objetivo lo valida de una sola vez mediante procesamiento paralelo en GPU. Como se puede reducir el número de llamadas al modelo objetivo hasta más de 5 veces, el coste de inferencia baja drásticamente.

Piensa en ello como si el modelo draft generara rápidamente un borrador y el modelo principal solo se encargara de validar de forma eficiente. La clave es que puedes ahorrar recursos computacionales manteniendo la calidad de salida intacta.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

9 me gusta

Recompensa
9
5
Republicar
Compartir

Comentar

0/400

MEVSandwichMaker

· hace8h

Así los costes pueden reducirse, ya hacía falta este tipo de jugada ingeniosa.

Ver originalesResponder0

liquidation_watcher

· hace8h

Los modelos pequeños hacen los borradores y los modelos grandes revisan el trabajo; este sistema de división de tareas es realmente increíble. Si los costes se pueden reducir a una quinta parte, ¿quién podría resistirse?

Ver originalesResponder0

ruggedNotShrugged

· hace9h

¿Una reducción de costes de 5 veces? Si realmente pueden mantener una producción estable, esos pequeños equipos ahogados por los costes de inferencia tendrían una oportunidad de salvarse.

Ver originalesResponder0

MetaverseMigrant

· hace9h

Ja, otra vez la típica optimización de costes. Este speculative sampling sí que tiene su gracia... Un modelo pequeño hace el trabajo preliminar y el modelo grande se encarga de la revisión final, parece una cadena de montaje. Una reducción de costes de 5 veces suena un poco exagerado, pero si realmente ahorra dinero, pues adelante.

Ver originalesResponder0

AirdropHuntress

· hace9h

Este enfoque es interesante, tenemos que analizar los detalles: ¿un modelo pequeño como delantero y un modelo grande como posterior realmente pueden reducir el coste a una quinta parte? ¿Cómo se ha verificado con datos? No vaya a ser el típico caso de datos de artículo vs resultados reales diferentes. Lo importante es si la calidad de salida realmente no ha disminuido; en esto solo me fío de los datos de pruebas de estrés en condiciones reales.

Ver originalesResponder0

Temas de actualidadVer más
#JoinGrowthPointsDrawToWiniPhone17
276.62K Popularidad
#DecemberMarketOutlook
73.33K Popularidad
#PostonSquaretoEarn$50
10.77K Popularidad
#LINKETFToLaunch
11.48K Popularidad
#SharingMy100xToken
12.37K Popularidad

Gate Fun en tendenciaVer más

1
MOONMoon
Cap.M.:$3.62KHolders:2
0.82%
2
GGPGate Guys Penguin
Cap.M.:$3.5KHolders:1
0.00%
3
GDGate Duck
Cap.M.:$3.75KHolders:2
0.85%
4
GGPGGP Wallet
Cap.M.:$3.6KHolders:1
0.81%
5
谁有实力发一个一起拉谁有实力发一个一起拉
Cap.M.:$3.52KHolders:1
0.00%

Anclado