Google đã phát triển một «tương tự Pied Piper» để tăng tốc tính toán trong mạng neural gấp tám lần - ForkLog: tiền điện tử, AI, сингулярность, tương lai

Froklog · 2026-03-26T12:53:36+00:00

Thuật toán TurboQuant của Google cải thiện đáng kể hiệu quả của AI bằng cách giảm yêu cầu bộ nhớ và tăng tốc tính toán trong mạng neural, tương đương với công nghệ Pied Piper. Nó nén dữ liệu mà không mất chất lượng, đạt được giảm bộ nhớ gấp sáu lần và tăng tốc gấp tám lần.

Froklog

2026-03-26 12:53:36

Đang tạo bản tóm tắt

# Google đã phát triển “tương tự Pied Piper” để tăng tốc tính toán trong mạng neural gấp tám lần

Phòng nghiên cứu của Google giới thiệu TurboQuant — thuật toán nén bộ nhớ cho trí tuệ nhân tạo. Người dùng so sánh phát triển này với công nghệ của startup Pied Piper trong series “Khu vực Silicon”.

TurboQuant là Pied Piper mới 🤣 pic.twitter.com/iMAYJs02zt

— Justin Trimble (@justintrimble) 25 tháng 3, 2026

TurboQuant giảm đáng kể yêu cầu về tài nguyên để vận hành các mô hình ngôn ngữ lớn và hệ thống tìm kiếm vectơ

Trí tuệ nhân tạo xử lý các mảng đa chiều phức tạp, lưu trữ thông tin về từ hoặc hình ảnh. Dữ liệu này chiếm nhiều dung lượng trong bộ đệm và làm chậm quá trình tạo phản hồi. Các phương pháp nén truyền thống yêu cầu lưu trữ các biến phụ, điều này thường làm mất đi lợi ích của việc tối ưu hóa.

TurboQuant giải quyết vấn đề tiêu thụ bộ nhớ quá mức bằng hai cơ chế. Thuật toán đầu tiên chuyển các vectơ sang hệ tọa độ cực và nén phần lớn dữ liệu. Thuật toán thứ hai hoạt động như một bộ điều khiển toán học, sử dụng chỉ một bit bộ nhớ để loại bỏ các lỗi ẩn còn lại.

Giám đốc điều hành của Cloudflare, Matthew Prince, so sánh thuật toán này với thành tựu của mô hình DeepSeek của Trung Quốc, đã thể hiện hiệu quả cao với chi phí thiết bị tối thiểu.

Đây là DeepSeek của Google. Còn nhiều không gian để tối ưu hóa suy luận AI về tốc độ, sử dụng bộ nhớ, tiêu thụ năng lượng và khả năng chia sẻ đa thuê. Nhiều nhóm tại @Cloudflare đang tập trung vào các lĩnh vực này. #staytuned https://t.co/hHoY4sLT2I

— Matthew Prince 🌥 (@eastdakota) 25 tháng 3, 2026

Các nhà phát triển đã thử nghiệm công nghệ này trên các mô hình mở Llama, Gemma và Mistral. Thuật toán nén bộ đệm xuống còn ba bit mà không giảm chất lượng phản hồi. Tiêu thụ bộ nhớ giảm ít nhất sáu lần, tốc độ tính toán trên các bộ tăng tốc đồ họa H100 tăng gấp tám lần.

Sáng kiến này không yêu cầu đào tạo lại mạng neural. Theo lời công ty, công nghệ sẽ được tích hợp vào các thuật toán tìm kiếm và các sản phẩm AI riêng của họ, bao gồm Gemini. Buổi giới thiệu công khai dự án sẽ diễn ra tại các hội nghị chuyên ngành ICLR và AISTATS năm 2026.

Nhắc lại, ngày 25 tháng 3, Google tiết lộ kế hoạch chuyển sang mã hóa hậu lượng tử.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.