过去两年,全球半导体产业的聚光灯始终打在HBM身上。这种通过硅通孔技术垂直堆叠的DRAM,伴随英伟达GPU的大规模出货,完成了从一个小众产品到供不应求的“硬通货”的蜕变。然而,就在2026年的春天,一个看似陈旧的技术名词——SRAM(静态随机存取存储器),正在以惊人的速度重回舞台中央。
要理解这场复权的底层逻辑,必须先厘清存储层级的基本分工。在当代计算架构中,存储系统呈现为一座金字塔:塔尖是集成在CPU、GPU计算核心附近的片上SRAM,具备纳秒级访问时延与高度确定性的带宽特性,带宽极高但容量极小、成本极高;向下依次是HBM、DRAM和SSD,每一级的容量递增,但时延和带宽的不确定性也随之增加。在过去以训练为主的时代,大容量吞吐比纳秒级响应更重要,因此HBM占据了主导。但当AI应用从实验室走向普罗大众,当用户体验的标尺从“模型有多大”转向“回答有多快”,这座金字塔的受力结构正在发生深刻变化。
3月17日,加州圣何塞SAP中心的舞台上,身着标志性黑色皮夹克的黄仁勋用两个半小时的演讲,正式为这一趋势写下了注脚。在这场备受瞩目的GTC 2026主题演讲中,英伟达正式发布了集成Groq LPU架构的推理芯片,并披露了令人瞩目的技术细节:最新Groq 3 LPU单芯片集成500MB片上SRAM,存储带宽高达150TB/s,而作为对比,主流GPU的片外HBM4带宽约为22TB/s。
更令人震撼的是其机架级方案:Groq 3 LPX机架搭载256个LPU处理器,提供128GB片上SRAM和高达40PB/s的推理加速带宽,并通过每个机架640TB/s的专用扩展接口将这些芯片连接在一起。黄仁勋在现场宣布,这款芯片将由三星电子代工,目前已进入生产阶段,预计今年下半年开始出货。更令业界震动的是,OpenAI已确定成为该芯片的首批客户,并承诺投入300亿美元采购相关推理算力。这不仅是英伟达在AI芯片之路上的一次技术路线微调,更是一个清晰的信号:AI计算的需求结构正在发生根本性位移,推理已取代训练,成为定义下一代芯片架构的决定性力量。
01SRAM如何重塑AI推理体验
要理解SRAM为何在此时爆发,必须首先厘清AI工作负载的历史性转折。过去五年,AI产业的中心矛盾是“算力饥渴”,即如何用更多的GPU堆出更大的模型。彼时,无论是OpenAI还是Google,核心诉求都是用最短的时间完成海量数据的预训练。在那个阶段,HBM凭借其极高的容量和数据传输速率,完美地充当了GPU计算核心的“粮仓”,尽管存在延迟,但吞吐量是第一要务。
然而,德勤在《2026科技、传媒和电信行业预测》中断言,到2026年,“推理”将占据全部AI计算能力的三分之二。当AI Agents开始承担复杂的多步骤任务,当代码生成工具需要实时响应用户的每一次按键,用户体验的衡量标尺发生了翻天覆地的变化。用户不再关心模型训练了多久,只关心提问后多久能看到第一个字(Time-to-First-Token),以及文字生成是否流畅无卡顿(尾时延)。
这正是Groq投资人Gavin Baker所强调的“推理拆分”:模型处理提示词的prefill阶段依然需要GPU的大规模并行算力,而逐字生成回复的decode阶段,瓶颈早已不在算力,而在内存带宽。传统GPU的困境在于,其海量参数存放在片外的HBM中。每生成一个token,计算核心都需要穿越复杂的封装和互连线路去HBM中搬运一次权重。这种“远距离运输”在prefill阶段或许可以容忍,但在需要串行输出成百上千个token的decode阶段,却造成了巨大的延迟和能耗浪费。
在大模型应用中,相比依赖外置HBM,SRAM可显著降低权重与激活数据的访存延迟与抖动,从而改善Time-to-First-Token与尾时延表现。Groq和Cerebras两家明星创业公司正是抓住了这一技术痛点,推出了基于SRAM的AI芯片。当新一代Groq LPU将片上带宽提升至HBM的7倍时,其意义不仅是数字上的领先,而是从根本上改变了推理的体验边界。以Llama 3.3 70B模型为例,根据Artificial Analysis等独立基准测试,Groq平台在不同上下文长度下能维持200-300+ token/s的稳定推理速度,显著优于传统GPU推理平台。这种带宽的确定性和时延的可预测性,对于构建实时交互系统而言至关重要。
而Cerebras则走得更远。根据Cerebras官网信息,其晶圆级引擎3(WSE-3)芯片集成了高达44GB的片上SRAM,片上存储带宽达到惊人的21 PB/s。这种将整片晶圆做成一颗芯片的激进设计,使得海量计算核心与海量SRAM之间的数据交换几乎不存在瓶颈。在OpenAI GPT-OSS 120B推理任务中,Cerebras实现了超过3000 tokens/s的输出速度,较主流GPU云推理快约15倍。如果说Groq证明了SRAM架构在单卡推理上的效率优势,Cerebras则展示了当SRAM容量足够大时,推理速度可以逼近何种极限。SRAM就像放在CEO办公桌上的便签纸,无需等待秘书从档案室调取文件,抬手即可获取。这种“纳秒级”的响应速度,对于构建真正具备实时交互感的AI Agent而言,是致命的竞争优势。
02英伟达的“钞能力”与SRAM的回归
英伟达显然洞察到了这一范式转移的风险。尽管其在训练市场占据绝对统治地位,但在低延迟推理这一细分战场上,Groq和Cerebras等创业公司正凭借SRAM架构撕开裂缝。如果任由这种趋势发展,未来数据中心可能会演变为“GPU做训练、LPU做推理”的双头格局,英伟达的统治版图将被从边缘蚕食。
去年12月,英伟达斥资200亿美元获得Groq知识产权的非独家授权,其中包括其语言处理单元(LPU)和配套软件库,并吸纳了Groq核心工程团队。这笔交易的战略意义远大于财务数字。它意味着英伟达承认,在纯粹的串行推理场景中,GPU的架构确实存在短板,而Groq的SRAM方案是目前最好的补丁。
与此同时,SRAM阵营的另一极也在快速壮大。根据 Cerebras 官方披露,2026 年 2 月,Cerebras 宣布完成 10 亿美元 H 轮融资,估值达到 230 亿美元。更引人注目的是,OpenAI与Cerebras签署了一份高达100亿美元的合同,部署多达750兆瓦的定制AI芯片。紧接着在2026年2月,OpenAI推出了首个运行在Cerebras Systems AI加速器上的模型——GPT-5.3-Codex-Spark预览版,该模型支持超过1000 tokens/s的代码生成响应速度,为用户提供更具交互性的编程体验。这一系列动作清晰地表明,头部大模型厂商已经开始为下一代实时交互应用储备“SRAM算力”。
根据GTC 2026上正式发布的信息,英伟达并未采用将LPU单元3D堆叠在GPU核心晶圆上的激进方案,而是采取了更为务实的路线:Groq 3 LPU作为独立的推理加速器芯片,与Rubin GPU通过协同设计的架构进行组合,共同构成Vera Rubin平台。云岫资本此前的分析指出,若通过PCIe等外部接口连接,数据传输会引入新的延迟,部分抵消SRAM的优势。
这意味着未来的AI芯片将出现复杂的异构内存层级:底层是负责prefill的计算晶圆,中间层是通过3D堆叠提供的巨大SRAM缓存用于高速decode,旁边则依然通过CoWoS封装着大容量的HBM用于存储海量上下文(KV Cache)。这种设计既保留了GPU在并行计算上的统治力,又吸收了LPU在串行生成上的低延迟优势,同时还能通过英伟达的Dynamo推理框架和KV缓存管理系统,智能地路由不同的token请求。
可以说,SRAM的回归并非要“杀死”HBM,而是将内存层级推向一个更精细化分工的多元时代。
03机遇,来了
英伟达的技术转向,在资本市场上激起了巨大的涟漪,也引发了一些有趣的误读。当“英伟达将推SRAM推理芯片”的消息传出后,韩国股市一度剧烈波动,市场担忧SRAM的使用会减少对HBM的需求,进而冲击三星和SK海力士的核心业务。然而,这种担忧很快被专业机构澄清为误判。
从物理特性看,SRAM的单元面积是DRAM的5到10倍,每比特成本极高,注定无法替代HBM作为主内存的角色。即便Cerebras的WSE-3集成了44GB SRAM,这已是工程上的奇迹,但要存储一个700亿参数模型的全部权重,仍需要数百GB的存储空间,这只能由HBM或DRAM来承担。SRAM的用武之地在于需要极致低延迟的特定场景,比如OpenAI的代码生成工具,或者未来的物理AI机器人——这些场景中,每毫秒的延迟都可能打断人类的思维流或机器人的动作连续性。
事实上,内存层级的细分反而会扩大整个市场的总规模。因为未来每一个数据中心可能都需要同时配备用于训练的HBM服务器和用于实时响应的SRAM加速卡。HBM负责承载模型的“长期记忆”,而SRAM负责处理需要“瞬时反应”的交互任务。两者是互补而非替代关系。韩系存储巨头需要警惕的,不是SRAM替代HBM,而是如果SRAM加速卡大规模部署,GPU的采购比例是否会发生变化,进而影响HBM的搭载率。
此外,当推理市场的聚光灯转向SRAM,半导体产业链的受益逻辑也随之发生微妙变化。过去,HBM的繁荣主要利好的是专门从事记忆体制造的厂商。而现在,由于SRAM直接集成在逻辑芯片内部,依赖于先进逻辑制程,晶圆代工厂的地位被前所未有地凸显出来。
在此次GTC 2026上,台积电被供应链明确点名为“受惠第一排”。SRAM作为嵌入式计算核心的一部分,其设计与制造完全依赖于顶尖的逻辑制程工艺。无论是英伟达采用N3P制程打造下一代LPU,还是AMD、英特尔以及各大ASIC厂商跟进类似的SRAM增强架构,最终都要回归到台积电的先进产线。对于台积电而言,这不仅意味着更高的晶圆平均销售单价(因为芯片面积增大、制程更先进),更巩固了其在AI半导体制造领域的核心枢纽地位。
与此同时,中国台湾的存储供应链也在这股浪潮中找到了新的叙事空间。过去,由于其在标准DRAM和HBM领域的份额远不及韩系厂商,往往在AI存储盛宴中扮演陪跑角色。但SRAM路线的兴起,为他们打开了一扇窗。此次GTC前后,市场关注点迅速锁定了几家具备想象空间的台厂。
华邦电因其具备SRAM量产经验而受到关注,其定制化内存(CMS)业务中的PSRAM(伪静态随机存取存储器),结合了DRAM的高容量与SRAM的高速接口特性,被视为在成本与性能之间的折中方案 。力积电则通过其3D AI Foundry策略,展现了在多层晶圆堆叠与高容值中介层技术上的实力,具备了承接SRAM相关代工的潜力 。此外,钰创的产品线覆盖38纳米、63纳米制程的SRAM,容量范围刚好符合Groq LPU采用的标准;而爱普则提供新一代ApSRAM,在功耗和带宽上实现倍数级提升。
这表明,虽然SRAM的核心制造在台积电,但其相关的IP设计、利基型产品供应以及先进封装配套,为整个国产的半导体生态带来了增量机会。
站在此刻回望,SRAM的回归像是一场技术的轮回。在半导体历史上,每一次算力中心的转移,都会伴随存储层级的重构。当AI产业从训练狂飙转入推理深耕,当用户体验的焦点从“模型有多大”转向“回答有多快”,我们正在见证的不仅是英伟达一家公司的产品迭代,更是一个时代的切换。存储金字塔的顶端,那个曾经因为成本过高而被束之高阁的SRAM,正在因为人类对实时交互的渴望,重新焕发生机。