谷歌发布TurboQuant算法:3 bit量化KV缓存无精度损失,推理速度最高提升8倍

GateNews

Gate News 消息,3月25日,谷歌研究院发布量化压缩算法TurboQuant,可将大语言模型的KV缓存压缩至3 bit,内存占用缩减至少6倍,无需训练或微调,不损失模型精度。在4 bit模式下,于英伟达H100 GPU上计算注意力的速度较32 bit未量化基线提升最高8倍。研究团队在LongBench、Needle In A Haystack、ZeroSCROLLS等长上下文基准上使用Gemma和Mistral模型进行验证,TurboQuant在所有测试中均达到最优表现。该算法由两个子算法组成:PolarQuant通过极坐标变换消除传统量化方法的内存开销,QJL仅用1 bit校正残余误差。该研究由谷歌研究院Amir Zandieh和副总裁兼Google Fellow Vahab Mirrokni主导,与韩国KAIST和纽约大学合作完成,将在ICLR 2026上发表。谷歌表示该技术的主要应用之一是解决Gemini等模型的KV缓存瓶颈。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

摩根大通:稳定币使用的增长可能不会推动市值上涨

摩根大通分析师在一份报告中表示,管理董事尼古拉奥斯·帕尼吉尔佐格鲁(Nikolaos Panigirtzoglou)称,稳定币使用量的上升未必会带来总稳定币市值的成比例增长。关键原因在于速度——同一种稳定币在交易中被使用的频率——这其中有

Crypto Frontier1小时前

Tether 发布 1.04B 美元 Q1 利润,储备缓冲达到 8.23B

根据稳定币发行方的官方公告,Tether 报告称其 Q1 利润为 10.4 亿美元,储备缓冲为 82.3 亿美元。

GateNews2小时前

CoinShares 在纳斯达克上市后的首份年度申报中披露其 AUM 达 74 亿美元

根据其在本月早些时候完成 12 亿美元纳斯达克上市后的首份年度报告,欧洲加密资产管理公司 CoinShares 在 2025 年录得 74 亿美元的管理资产总额以及 1.657 亿美元的全年收入。该公司的资产管理业务产生了 12

GateNews2小时前

WisdomTree 加密 ETP 资金流入在 Q1 达到 $137M

WisdomTree 加密货币 ETP 在 2026 年第一季度出现了 $137M 资金流入,扭转了上一年度的资金流出,并表明投资者兴趣重新升温。 加密货币管理资产(AUM)尽管市场下跌仍达 18 亿美元,而公司总资产同比增长超过 30%。 产品扩张和代币化举措带来了提升

CryptoFrontNews7小时前

Tether 发布 10.4亿美元 Q1 利润,触及 82.3 亿美元储备缓冲

根据 Tether,稳定币发行方在第一季度录得 10.4 亿美元利润,并达到 82.3 亿美元的储备缓冲。该公司指出,在整个过程中,加密市场仍保持高度波动。

GateNews8小时前

Tether 发布 10.4 亿美元 第一季度利润,达到 82.3 亿美元储备缓冲

Tether 根据稳定币发行方的说法,在第一季度公布了 10.4 亿美元的利润,并且达到 82.3 亿美元的储备缓冲。该公司表示,在加密货币市场期间出现了高波动性

GateNews14小时前
评论
0/400
暂无评论