Chắc hẳn có nhiều người đau đầu vì chi phí suy luận LLM, dạo này phương pháp được chú ý là speculative sampling.



Nguyên lý như sau - mô hình nhỏ sẽ dự đoán kết quả trước, sau đó mô hình lớn (mục tiêu) sẽ kiểm tra đồng thời bằng xử lý song song trên GPU. Nhờ vậy, số lần gọi mô hình mục tiêu có thể giảm đến hơn 5 lần, giúp giảm mạnh chi phí suy luận.

Bạn có thể hiểu là mô hình draft tạo bản nháp nhanh, còn mô hình chính chỉ kiểm tra hiệu quả. Điều quan trọng là vừa tiết kiệm tài nguyên tính toán vừa giữ nguyên chất lượng đầu ra.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Đăng lại
  • Retweed
Bình luận
0/400
MEVSandwichMakervip
· 4giờ trước
Như vậy chi phí có thể được giảm xuống rồi, lẽ ra nên có kiểu thao tác bá đạo này từ lâu.
Xem bản gốcTrả lời0
liquidation_watchervip
· 4giờ trước
Mô hình nhỏ để phác thảo, mô hình lớn để kiểm tra hàng, cách phân công này thật sự quá đỉnh, chi phí có thể giảm 5 lần thì ai mà chịu nổi chứ.
Xem bản gốcTrả lời0
ruggedNotShruggedvip
· 4giờ trước
Giảm chi phí gấp 5 lần? Nếu thực sự có thể duy trì hiệu suất ổn định như vậy, thì những nhóm nhỏ đang bị chi phí suy luận đè nặng đến mức không thở nổi sẽ được cứu.
Xem bản gốcTrả lời0
MetaverseMigrantvip
· 4giờ trước
Haha, lại là bộ tối ưu hóa chi phí đó, cái speculative sampling này đúng là khá thú vị... mô hình nhỏ làm tiền trạm, mô hình lớn làm kiểm duyệt cuối, cảm giác giống như dây chuyền sản xuất vậy. Chi phí giảm 5 lần nghe có vẻ hơi phóng đại nhưng nếu thật sự tiết kiệm được tiền thì cũng tốt thôi.
Xem bản gốcTrả lời0
AirdropHuntressvip
· 4giờ trước
Ý tưởng này thú vị đấy, mình phải xem kỹ chi tiết thôi — mô hình nhỏ làm tiền đạo, mô hình lớn hậu kiểm, chi phí có thể giảm 5 lần? Dữ liệu xác thực thế nào, đừng lại là kiểu dữ liệu trên giấy vs thực tế chạy khác nhau như cũ nhé. Quan trọng là chất lượng đầu ra thực sự không giảm sút chứ, phần này phải xem dữ liệu benchmark thực tế mới dám tin.
Xem bản gốcTrả lời0
  • Gate Fun hotXem thêm
  • Vốn hóa:$3.53KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.81KNgười nắm giữ:3
    2.01%
  • Vốn hóa:$3.6KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$3.5KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.59KNgười nắm giữ:2
    0.00%
  • Ghim