米兰体育谷歌扔出时期核弹，内存需求将坍塌?

发布日期：2026-03-29 08:58 点击次数：115

寰宇AI算力竞赛出现要紧时期拐点！

近日，谷歌公布的全新AI內存压缩时期“TurboQuant”，激发了业界的极大温暖。该时期声称能在不葬送模子精确度的前提下，将生成式AI推理阶段最吃资源的“键值缓存”（KV Cache）空间需求减少到原来的1/6，并让计算速率暴增8倍。这一冲突性的时期，也激发了所有这个词市集关于内存需求将断崖式着落的担忧，好意思光、Sandisk、西部数据等存储相干好意思股纷纷大跌。

TurboQuant究竟是什么？

在LLM（空话语模子）推理经由中，为了处理长文本，系统必须将过往对话信息存放在KV Cache中，这如同AI的“随身札记本”。跟着对话长度增多，这本札记本需要存储的信息会飞速挤爆AI GPU的高频宽內存（HBM），成为AI开动的最大瓶颈。

谷歌的TurboQuant时期的中枢上风在于防守了传统内存压缩时期产生的“內存噪声”（Overhead）。该时期由两好像道部分构成：

PolarQuant（极坐标量化）：传统向量以XYZ坐标标注，运算繁琐。谷歌改为招揽“极坐标”逻辑，将复杂的标的简化为“半径”与“角度”。这好比将原来要秀雅“往东走3公里、再往北走4公里”的信息，简化为“以37度角走5公里”。这种几何结构的蜕变，大幅减少了数据处理的负荷。

QJL（Quantized Johnson-Lindenstrauss）：这是一套极其精简的1bit数学改进机制。仅诈欺格外的1bit来精确修正压缩经由中的残余错误，让模子即使被压缩到仅剩3bit，在LongBench等多项基准测试中仍能终了“零精度归天”。

谷歌遴荐将这套足以成为中枢竞争力的时期全齐开源，不仅优化了Gemini等大型模子的检索成果，更为其他大模子减少关于内存依赖，加快端侧AI发展铺平说念路。

笔据实测，在英伟达（NVIDIA）H100加快器上，TurboQuant比拟未压缩决策，性能最高进步了8倍，且不消从头熟练模子即可径直挂载，号称AI部署的降本增效的“神兵利器”。

Cloudflare首席推论官Matthew Prince等东说念主将TurboQuant称为谷歌的“DeepSeek时候”，以为其有望像DeepSeek雷同，通过极高的成果收益大幅拉低AI的开动资本，同期在收尾上保握竞争力。

内存需求会裁汰，一经会带来更大需求？

针对TurboQuant时期会激发了所有这个词市集关于内存需求断崖式着落的担忧，产业群众与计算机构也给出了人大不同的见识：

富国银行（Wells Fargo）分析师Andrew Rocha指出：“当context window（高下文窗口）越来越大，米兰体育官网KV Cache的爆炸性成长原来是推升內存需求的保证。但TurboQuant正在径直袭击这条资本弧线，一朝被平庸招揽，数据中心对內存容量的规格条目将被打上大问号。”

不外，驰名投行摩根士丹利（Morgan Stanley）和计算机构Lynx Equity Strategies则给出了人大不同的不雅点，

摩根士丹利以为市集可能冷漠了“成果进步带动总量增长”的经济规定。当AI计算所需的内存资本裁汰到原来的1/6，这将会使得原来因内存太贵而无法上线的AI应用（如长文本翻译、复杂代码生成）需求大界限爆发，反而会填补、以至突出被压缩掉的内存缺口。

这便是杰文斯悖论（Jevon's paradox），即其时期跳跃提高了使用资源的成果（减少任何一种使用所需的数目），但资本裁汰导致需求增多，令资源虚耗的速率不减反增。

摩根士丹利分析师约瑟夫·摩尔（Joseph Moore）绝顶团队在周四发布的投资者陈述中指出： “有报说念称谷歌的TurboQuant会导致内存使用量减少了到原来的1/6，但这忽略了他们只是指的是KV Cache，而不是举座内存使用量。

“值得矜重的是，谷歌的 Gemini 3 和 2.5 Pro 模子齐领有 100 万个Token的高下文窗口，但谷歌曾炫夸，他们使用 Gemini 1.5 Pro 测试过高达 1000 万个Token的高下文窗口，并获得了很是好的收尾，但由于推理资本较高，他们最终莫得发布该模子，”摩尔说说念。“因此，咱们预测，跟着此类翻新以绝顶他时期的出现，资本将会裁汰，这项时期将被用于职业于更智能、计算密集型的家具。”

摩根士丹利进一步指出，TurboQuant主要优化的是“推理阶段”的缓存，并非“熟练阶段”的模子权重。因此，关于复古AI中枢熟练的HBM（高频宽內存）采购逻辑影响相对有限。

比拟之下，TurboQuant敌手机、札记本电脑等末端修复的东说念主工智能部署更具真谛。由于出动修复的內存有限，这类高效压缩时期能让更精深的AI模子在手机端开动，这反而会刺激各种末端安装进行內存规格的全面换代。

Lynx Equity Strategies 的不雅点以为，诚然东说念主工智能提供商需要翻新来防守推理中跟着Token高下文长度增多而出现的瓶颈问题，但由于供应阻抑，这在当年三到五年内并不会减少对内存和闪存的需求。

剪辑：芯智讯-浪客剑米兰体育

金年会(JinNianHui)体育官网

米兰体育谷歌扔出时期核弹，内存需求将坍塌?

热点资讯

推荐资讯

米兰体育 谷歌扔出时期核弹，内存需求将坍塌?

热点资讯

推荐资讯

米兰体育谷歌扔出时期核弹，内存需求将坍塌?