Beaucoup de personnes doivent avoir mal à la tête à cause du coût d’inférence des LLM, et dernièrement, la technique qui attire l’attention s’appelle le speculative sampling.
Voici le principe : un petit modèle prédit d’abord le résultat, puis un grand modèle cible le vérifie en une seule fois grâce au traitement parallèle sur GPU. Cela permet de réduire jusqu’à plus de 5 fois le nombre d’appels au modèle cible, ce qui fait baisser drastiquement le coût d’inférence.
On peut imaginer que le modèle draft crée rapidement un brouillon, et que le modèle principal se contente d’effectuer une validation efficace. L’essentiel, c’est qu’on économise des ressources de calcul tout en maintenant la qualité de sortie.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
10 J'aime
Récompense
10
6
Reposter
Partager
Commentaire
0/400
LayerZeroHero
· Il y a 4h
Ah, enfin quelqu'un en parle, le speculative sampling est vraiment un sauveur... Les petits modèles en première ligne et les grands modèles pour l'audit, cette combinaison permet effectivement de réduire drastiquement les coûts. Cinq fois moins cher, mon frère, si ça se concrétise vraiment, les équipes écrasées par les coûts d'inférence vont enfin pouvoir souffler.
Voir l'originalRépondre0
MEVSandwichMaker
· Il y a 13h
Comme ça, on va enfin pouvoir réduire les coûts ; il était temps qu’on ait ce genre de technique maligne.
Voir l'originalRépondre0
liquidation_watcher
· Il y a 13h
Les petits modèles rédigent les brouillons, les grands modèles vérifient le travail : cette répartition des tâches est vraiment géniale. Si les coûts peuvent être réduits de 5 fois, qui pourrait résister à ça ?
Voir l'originalRépondre0
ruggedNotShrugged
· Il y a 13h
Une baisse des coûts par 5 ? Si cela permet vraiment de produire de manière stable, alors les petites équipes étranglées par les frais de calcul pour l’inférence pourraient enfin souffler.
Voir l'originalRépondre0
MetaverseMigrant
· Il y a 13h
Ha, encore cette histoire d’optimisation des coûts, ce speculative sampling est effectivement intéressant... Un petit modèle en première ligne et un grand modèle pour la validation finale, on dirait vraiment une chaîne de montage. Une réduction des coûts par 5, ça semble un peu exagéré, mais si ça permet vraiment d’économiser, tant mieux.
Voir l'originalRépondre0
AirdropHuntress
· Il y a 13h
Cette approche est intéressante, il faut creuser les détails — petit modèle en première ligne, grand modèle en post-traitement, le coût peut vraiment être réduit de 5 fois ? Comment les données ont-elles été vérifiées, ce n’est pas encore le coup classique des données de l’article vs la réalité, j’espère. La question clé, c’est : la qualité de sortie n’a-t-elle vraiment pas diminué ? Il faut voir les données des tests de charge en conditions réelles pour y croire.
Beaucoup de personnes doivent avoir mal à la tête à cause du coût d’inférence des LLM, et dernièrement, la technique qui attire l’attention s’appelle le speculative sampling.
Voici le principe : un petit modèle prédit d’abord le résultat, puis un grand modèle cible le vérifie en une seule fois grâce au traitement parallèle sur GPU. Cela permet de réduire jusqu’à plus de 5 fois le nombre d’appels au modèle cible, ce qui fait baisser drastiquement le coût d’inférence.
On peut imaginer que le modèle draft crée rapidement un brouillon, et que le modèle principal se contente d’effectuer une validation efficace. L’essentiel, c’est qu’on économise des ressources de calcul tout en maintenant la qualité de sortie.