Google Merilis Algoritma TurboQuant: Kuantisasi KV Cache 3 bit Tanpa Kehilangan Presisi, Kecepatan Inferensi Meningkat Hingga 8 Kali Lipat

Berita Gate News, pada 25 Maret, Google Research merilis algoritma kompresi kuantitatif TurboQuant, yang dapat mengompresi cache KV dari model bahasa besar hingga 3 bit, mengurangi penggunaan memori setidaknya 6 kali lipat, tanpa perlu pelatihan atau penyesuaian ulang, dan tanpa kehilangan akurasi model. Dalam mode 4 bit, kecepatan perhitungan perhatian pada GPU Nvidia H100 meningkat hingga 8 kali dibandingkan baseline 32 bit yang tidak dikuantifikasi. Tim peneliti memverifikasi menggunakan model Gemma dan Mistral pada benchmark konteks panjang seperti LongBench, Needle In A Haystack, ZeroSCROLLS, dan TurboQuant menunjukkan performa terbaik di semua pengujian. Algoritma ini terdiri dari dua sub-algoritma: PolarQuant yang menghilangkan biaya memori dari metode kuantisasi tradisional melalui transformasi koordinat polar, dan QJL yang hanya menggunakan 1 bit untuk mengoreksi residual error. Penelitian ini dipimpin oleh Amir Zandieh dari Google Research dan Wakil Presiden sekaligus Google Fellow Vahab Mirrokni, bekerja sama dengan KAIST Korea dan New York University, dan akan dipresentasikan di ICLR 2026. Google menyatakan salah satu aplikasi utama teknologi ini adalah mengatasi bottleneck cache KV dari model seperti Gemini.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

79% ATM Kripto Global Berlokasi di Amerika Serikat

Pesan Berita Gate, 25 April — Menurut Cointelegraph, 79% ATM kripto di seluruh dunia berlokasi di Amerika Serikat.

GateNews5jam yang lalu

Laporan Tren ETF JPMorgan: APIisasi, aktif sebesar 83%, tokenisasi terbagi menjadi dua jalur: sintetis dan native

Laporan JPMorgan Chase menunjukkan tiga tren utama: 1) perdagangan otomatis API dari AP menyumbang sekitar 50% arus masuk pasar level satu; 2) pada tahun 2025, ETF aktif menyumbang 83% dari penerbitan baru, diperkirakan menjadi arus utama pada 2026–27; 3) tokenisasi terbagi menjadi jalur sintetis (mencerminkan harga melalui derivatif) dan jalur asli (penerbitan melalui blockchain). Laporan tersebut menekankan peningkatan transparansi dan tata kelola dengan alat seperti Athena, serta mengamati tindak lanjut berikutnya dan jadwal pengkomersialan resmi.

ChainNewsAbmedia8jam yang lalu

Laporan a16z: Stablecoin Mencapai $4,5T dalam Transaksi Kuartal 1, Beralih ke Pembayaran Lokal

Pesan Gate News, 25 April — Menurut laporan a16z terbaru, stablecoin telah berevolusi dari alat penyelesaian kripto menjadi infrastruktur keuangan global, dengan adopsi yang makin cepat di seluruh Asia, Brasil, dan pasar negara berkembang lainnya. Pergeseran fokus telah bergeser dari pembayaran lintas-batas ke pembayaran lokal saat kepastian regulasi dan peningkatan kinerja blockchain memungkinkan integrasi yang lebih luas di dunia nyata sebagai

GateNews14jam yang lalu

Penyelamatan kerentanan Kelp DAO: Mantle meminjam-kembali Aave 3万 ETH, aliansi DeFi berkomitmen lebih dari 43.500 ETH

Jembatan lintas rantai Kelp DAO diserang, DeFi United mengumpulkan Aave dan protokol lain yang berkomitmen untuk menggunakan 43,500 ETH (sekitar 1,01 miliar dolar AS) guna melakukan penanganan piutang bermasalah. Mantle mengajukan MIP-34, dengan pinjaman maksimal 30,000 ETH kepada Aave DAO, serta memberikan 130,000 hak suara AAVE; Stani Kulechov secara pribadi menyuntik 5,000 ETH, dan Lido serta lainnya juga ikut menyetor. Langkah ini dipandang sebagai eksperimen “pinjaman untuk ditukar dengan hak tata kelola” di tengah krisis, yang masih menunggu pemungutan suara.

ChainNewsAbmedia04-24 15:28

Morgan Stanley meluncurkan dana cadangan stablecoin kepatuhan untuk GENIUS Act pertama MSNXX: biaya tahunan 0,15%, ambang batas 10 juta dolar AS

Morgan Stanley Investment Management Hari ini mengaktifkan dana cadangan stablecoin MSNXX, untuk menyediakan manajemen aset bagi penerbit stablecoin, dengan aset yang diinvestasikan pada kas, Surat Utang Pemerintah AS 93 hari, dan reverse repo overnight, NAV tetap 1,00 dolar AS, biaya tahunan 0,15%, ambang minimum 10 juta dolar AS. Dana ini memenuhi persyaratan GENIUS Act, yang akan memasukkan dana stablecoin ke dalam sistem dana pasar uang pemerintah AS, menunjukkan bahwa infrastruktur dasar stablecoin sedang terhubung dengan keuangan tradisional.

ChainNewsAbmedia04-24 15:24

Algorand, Aptos Memimpin Perlombaan Keamanan Kuantum: Laporan Coinbase

Dewan Penasehat Kuantum Coinbase telah mengidentifikasi Algorand dan Aptos sebagai jaringan Layer-1 yang paling siap untuk menghadapi ancaman komputasi kuantum di masa depan, menurut sebuah laporan yang dikutip pada 24 April 2026. Meskipun risiko kuantum skala besar masih akan memakan waktu bertahun-tahun, laporan tersebut menekankan bahwa persiapan adalah

CryptoFrontier04-24 07:32
Komentar
0/400
Tidak ada komentar