英伟达出手，SRAM重回C位,英伟达smi

过去两年，全球半导体产业的聚光灯始终打在HBM身上。这种通过硅通孔技术垂直堆叠的DRAM，伴随英伟达GPU的大规模出货，完成了从一个小众产品到供不应求的“硬通货”的蜕变。然而，就在2026年的春天，一个看似陈旧的技术名词——SRAM（静态随机存取存储器），正在以惊人的速度重回舞台中央。

要理解这场复权的底层逻辑，必须先厘清存储层级的基本分工。在当代计算架构中，存储系统呈现为一座金字塔：塔尖是集成在CPU、GPU计算核心附近的片上SRAM，具备纳秒级访问时延与高度确定性的带宽特性，带宽极高但容量极小、成本极高；向下依次是HBM、DRAM和SSD，每一级的容量递增，但时延和带宽的不确定性也随之增加。在过去以训练为主的时代，大容量吞吐比纳秒级响应更重要，因此HBM占据了主导。但当AI应用从实验室走向普罗大众，当用户体验的标尺从“模型有多大”转向“回答有多快”，这座金字塔的受力结构正在发生深刻变化。

3月17日，加州圣何塞SAP中心的舞台上，身着标志性黑色皮夹克的黄仁勋用两个半小时的演讲，正式为这一趋势写下了注脚。在这场备受瞩目的GTC 2026主题演讲中，英伟达正式发布了集成Groq LPU架构的推理芯片，并披露了令人瞩目的技术细节：最新Groq 3 LPU单芯片集成500MB片上SRAM，存储带宽高达150TB/s，而作为对比，主流GPU的片外HBM4带宽约为22TB/s。

更令人震撼的是其机架级方案：Groq 3 LPX机架搭载256个LPU处理器，提供128GB片上SRAM和高达40PB/s的推理加速带宽，并通过每个机架640TB/s的专用扩展接口将这些芯片连接在一起。黄仁勋在现场宣布，这款芯片将由三星电子代工，目前已进入生产阶段，预计今年下半年开始出货。更令业界震动的是，OpenAI已确定成为该芯片的首批客户，并承诺投入300亿美元采购相关推理算力。这不仅是英伟达在AI芯片之路上的一次技术路线微调，更是一个清晰的信号：AI计算的需求结构正在发生根本性位移，推理已取代训练，成为定义下一代芯片架构的决定性力量。

01SRAM如何重塑AI推理体验

要理解SRAM为何在此时爆发，必须首先厘清AI工作负载的历史性转折。过去五年，AI产业的中心矛盾是“算力饥渴”，即如何用更多的GPU堆出更大的模型。彼时，无论是OpenAI还是Google，核心诉求都是用最短的时间完成海量数据的预训练。在那个阶段，HBM凭借其极高的容量和数据传输速率，完美地充当了GPU计算核心的“粮仓”，尽管存在延迟，但吞吐量是第一要务。

然而，德勤在《2026科技、传媒和电信行业预测》中断言，到2026年，“推理”将占据全部AI计算能力的三分之二。当AI Agents开始承担复杂的多步骤任务，当代码生成工具需要实时响应用户的每一次按键，用户体验的衡量标尺发生了翻天覆地的变化。用户不再关心模型训练了多久，只关心提问后多久能看到第一个字（Time-to-First-Token），以及文字生成是否流畅无卡顿（尾时延）。

这正是Groq投资人Gavin Baker所强调的“推理拆分”：模型处理提示词的prefill阶段依然需要GPU的大规模并行算力，而逐字生成回复的decode阶段，瓶颈早已不在算力，而在内存带宽。传统GPU的困境在于，其海量参数存放在片外的HBM中。每生成一个token，计算核心都需要穿越复杂的封装和互连线路去HBM中搬运一次权重。这种“远距离运输”在prefill阶段或许可以容忍，但在需要串行输出成百上千个token的decode阶段，却造成了巨大的延迟和能耗浪费。

在大模型应用中，相比依赖外置HBM，SRAM可显著降低权重与激活数据的访存延迟与抖动，从而改善Time-to-First-Token与尾时延表现。Groq和Cerebras两家明星创业公司正是抓住了这一技术痛点，推出了基于SRAM的AI芯片。当新一代Groq LPU将片上带宽提升至HBM的7倍时，其意义不仅是数字上的领先，而是从根本上改变了推理的体验边界。以Llama 3.3 70B模型为例，根据Artificial Analysis等独立基准测试，Groq平台在不同上下文长度下能维持200-300+ token/s的稳定推理速度，显著优于传统GPU推理平台。这种带宽的确定性和时延的可预测性，对于构建实时交互系统而言至关重要。

而Cerebras则走得更远。根据Cerebras官网信息，其晶圆级引擎3（WSE-3）芯片集成了高达44GB的片上SRAM，片上存储带宽达到惊人的21 PB/s。这种将整片晶圆做成一颗芯片的激进设计，使得海量计算核心与海量SRAM之间的数据交换几乎不存在瓶颈。在OpenAI GPT-OSS 120B推理任务中，Cerebras实现了超过3000 tokens/s的输出速度，较主流GPU云推理快约15倍。如果说Groq证明了SRAM架构在单卡推理上的效率优势，Cerebras则展示了当SRAM容量足够大时，推理速度可以逼近何种极限。SRAM就像放在CEO办公桌上的便签纸，无需等待秘书从档案室调取文件，抬手即可获取。这种“纳秒级”的响应速度，对于构建真正具备实时交互感的AI Agent而言，是致命的竞争优势。

02英伟达的“钞能力”与SRAM的回归

英伟达显然洞察到了这一范式转移的风险。尽管其在训练市场占据绝对统治地位，但在低延迟推理这一细分战场上，Groq和Cerebras等创业公司正凭借SRAM架构撕开裂缝。如果任由这种趋势发展，未来数据中心可能会演变为“GPU做训练、LPU做推理”的双头格局，英伟达的统治版图将被从边缘蚕食。

去年12月，英伟达斥资200亿美元获得Groq知识产权的非独家授权，其中包括其语言处理单元（LPU）和配套软件库，并吸纳了Groq核心工程团队。这笔交易的战略意义远大于财务数字。它意味着英伟达承认，在纯粹的串行推理场景中，GPU的架构确实存在短板，而Groq的SRAM方案是目前最好的补丁。

与此同时，SRAM阵营的另一极也在快速壮大。根据 Cerebras 官方披露，2026 年 2 月，Cerebras 宣布完成 10 亿美元 H 轮融资，估值达到 230 亿美元。更引人注目的是，OpenAI与Cerebras签署了一份高达100亿美元的合同，部署多达750兆瓦的定制AI芯片。紧接着在2026年2月，OpenAI推出了首个运行在Cerebras Systems AI加速器上的模型——GPT-5.3-Codex-Spark预览版，该模型支持超过1000 tokens/s的代码生成响应速度，为用户提供更具交互性的编程体验。这一系列动作清晰地表明，头部大模型厂商已经开始为下一代实时交互应用储备“SRAM算力”。

根据GTC 2026上正式发布的信息，英伟达并未采用将LPU单元3D堆叠在GPU核心晶圆上的激进方案，而是采取了更为务实的路线：Groq 3 LPU作为独立的推理加速器芯片，与Rubin GPU通过协同设计的架构进行组合，共同构成Vera Rubin平台。云岫资本此前的分析指出，若通过PCIe等外部接口连接，数据传输会引入新的延迟，部分抵消SRAM的优势。

这意味着未来的AI芯片将出现复杂的异构内存层级：底层是负责prefill的计算晶圆，中间层是通过3D堆叠提供的巨大SRAM缓存用于高速decode，旁边则依然通过CoWoS封装着大容量的HBM用于存储海量上下文（KV Cache）。这种设计既保留了GPU在并行计算上的统治力，又吸收了LPU在串行生成上的低延迟优势，同时还能通过英伟达的Dynamo推理框架和KV缓存管理系统，智能地路由不同的token请求。

可以说，SRAM的回归并非要“杀死”HBM，而是将内存层级推向一个更精细化分工的多元时代。

03机遇，来了

英伟达的技术转向，在资本市场上激起了巨大的涟漪，也引发了一些有趣的误读。当“英伟达将推SRAM推理芯片”的消息传出后，韩国股市一度剧烈波动，市场担忧SRAM的使用会减少对HBM的需求，进而冲击三星和SK海力士的核心业务。然而，这种担忧很快被专业机构澄清为误判。

从物理特性看，SRAM的单元面积是DRAM的5到10倍，每比特成本极高，注定无法替代HBM作为主内存的角色。即便Cerebras的WSE-3集成了44GB SRAM，这已是工程上的奇迹，但要存储一个700亿参数模型的全部权重，仍需要数百GB的存储空间，这只能由HBM或DRAM来承担。SRAM的用武之地在于需要极致低延迟的特定场景，比如OpenAI的代码生成工具，或者未来的物理AI机器人——这些场景中，每毫秒的延迟都可能打断人类的思维流或机器人的动作连续性。

事实上，内存层级的细分反而会扩大整个市场的总规模。因为未来每一个数据中心可能都需要同时配备用于训练的HBM服务器和用于实时响应的SRAM加速卡。HBM负责承载模型的“长期记忆”，而SRAM负责处理需要“瞬时反应”的交互任务。两者是互补而非替代关系。韩系存储巨头需要警惕的，不是SRAM替代HBM，而是如果SRAM加速卡大规模部署，GPU的采购比例是否会发生变化，进而影响HBM的搭载率。

此外，当推理市场的聚光灯转向SRAM，半导体产业链的受益逻辑也随之发生微妙变化。过去，HBM的繁荣主要利好的是专门从事记忆体制造的厂商。而现在，由于SRAM直接集成在逻辑芯片内部，依赖于先进逻辑制程，晶圆代工厂的地位被前所未有地凸显出来。

在此次GTC 2026上，台积电被供应链明确点名为“受惠第一排”。SRAM作为嵌入式计算核心的一部分，其设计与制造完全依赖于顶尖的逻辑制程工艺。无论是英伟达采用N3P制程打造下一代LPU，还是AMD、英特尔以及各大ASIC厂商跟进类似的SRAM增强架构，最终都要回归到台积电的先进产线。对于台积电而言，这不仅意味着更高的晶圆平均销售单价（因为芯片面积增大、制程更先进），更巩固了其在AI半导体制造领域的核心枢纽地位。

与此同时，中国台湾的存储供应链也在这股浪潮中找到了新的叙事空间。过去，由于其在标准DRAM和HBM领域的份额远不及韩系厂商，往往在AI存储盛宴中扮演陪跑角色。但SRAM路线的兴起，为他们打开了一扇窗。此次GTC前后，市场关注点迅速锁定了几家具备想象空间的台厂。

华邦电因其具备SRAM量产经验而受到关注，其定制化内存（CMS）业务中的PSRAM（伪静态随机存取存储器），结合了DRAM的高容量与SRAM的高速接口特性，被视为在成本与性能之间的折中方案。力积电则通过其3D AI Foundry策略，展现了在多层晶圆堆叠与高容值中介层技术上的实力，具备了承接SRAM相关代工的潜力。此外，钰创的产品线覆盖38纳米、63纳米制程的SRAM，容量范围刚好符合Groq LPU采用的标准；而爱普则提供新一代ApSRAM，在功耗和带宽上实现倍数级提升。

这表明，虽然SRAM的核心制造在台积电，但其相关的IP设计、利基型产品供应以及先进封装配套，为整个国产的半导体生态带来了增量机会。

站在此刻回望，SRAM的回归像是一场技术的轮回。在半导体历史上，每一次算力中心的转移，都会伴随存储层级的重构。当AI产业从训练狂飙转入推理深耕，当用户体验的焦点从“模型有多大”转向“回答有多快”，我们正在见证的不仅是英伟达一家公司的产品迭代，更是一个时代的切换。存储金字塔的顶端，那个曾经因为成本过高而被束之高阁的SRAM，正在因为人类对实时交互的渴望，重新焕发生机。