×

HBM全景研报:从训练到推理,主角不再是GPU

wang wang 发表于2026-05-01 12:02:32 浏览3 评论0

抢沙发发表评论

HBM全景研报:从训练到推理,主角不再是GPU

《 雨、蒸气与速度——大西部铁路(威廉·透纳 )

*

在AI推理大爆炸的新阶段,GPU 仍然稀缺和紧张,但是装得下数据、跑得快数据的内存才会是新的主角。

今天接着上篇英伟达份额大降,AI革命新阶段机会在哪?详细讲讲HBM,当前HBM热度持续爆炸,而同时,众多为缓解HBM紧张的分层缓解方案和TPU等架构级替代尝试也在路上。

市场对于存储最核心的关切是:存储到底是周期性产业,还是AI基础设施?

如果是前者,鼓声将会和过去一样消失;如果是后者,那将是完全不同的未来。

这不是判断题,而是数学题,本文将试图从逻辑与事实的角度来剖析。

*

这是本人《AI投资地图》第12篇,全文历数数天,历经N稿,各种精简,仍有1.8万字,建议先转发收藏。推荐将本号“设为星标”。


一、推理为什么让内存成为主角?

大模型推理时,每生成一个 token 要做三件事:

  • 把整个模型的所有参数从内存读一遍,送到计算核心;
  • 把这个 token 之前所有 token 的中间状态(叫 KV Cache)也读一遍;
  • 然后做矩阵乘法,算出下一个 token。

第三步是计算,前两步是搬运。

搬运的总耗时通常超过计算的总耗时

这个事实几乎适用于所有 100 亿参数以上的模型。

一个 700 亿参数的开源模型(Llama 3 70B),FP16 精度下模型权重约 140 GB。生成每个 token,都要把这 140 GB 从 HBM 读到 GPU 计算核心。要保证流畅生成 token——比如每秒 30 个,HBM 到计算核心之间的带宽必须能支撑每秒约 4.2 TB 的搬运量。这就是为什么 H100 SXM5 的 HBM 带宽设在 3.35 TB/s——低于这个数字,70B 模型推理就开始卡。

带宽是一回事,容量是另一回事。如果一个模型的总参数量超过单 GPU 的 HBM 容量,就必须把模型切成多份分散到多个 GPU 上跑,这叫张量并行。但模型一切,原本一次能算完的事变成多次,GPU 之间需要相互通信传中间结果——通信开销是新的瓶颈。

所以容量和带宽都重要,但侧重不同。

容量决定:模型能不能装在单卡上?要不要切分?切了之后通信开销有多大?带宽决定:装下了之后,吐出 token 的速度有多快?延迟有多低?

在应对推理的需求上,NVIDIA和AMD走上了不同的路:

NVIDIA 最新旗舰 Rubin R200,单 GPU 配 288 GB HBM4,内存带宽 22 TB/s; AMD 下一代 MI455X,单 GPU 配 432 GB HBM4,内存带宽 19.6 TB/s。

AMD 容量多 50%,带宽反而少 11%。

NVIDIA 押带宽——把数据搬运得更快。 AMD 押容量——让模型本体不必拆开放。

两家的目标客户群侧重不同:AMD 瞄准要跑 405B、671B 这种超大模型的开源派;NVIDIA 瞄准要做高并发低延迟商用推理的 SaaS 派。

而最近在走IPO的新玩家Cerebras WSE-3,单芯片只有 44 GB 片上 SRAM,但内存带宽高达 21 PB/s——是 NVIDIA Rubin 的 950 倍。容量小 7 倍换来带宽多三个数量级。Cerebras 的判断和 NVIDIA、AMD 又不一样。

2、推理让两个瓶颈同时变得更紧张

推理模型——OpenAI o 系列、DeepSeek-R1、Anthropic Claude 的 extended thinking——回答前会先在后台"想很久"。这些"想"产生的中间状态全部存在内存里,存的形式叫 KV Cache。每多一轮思考、每多一段长上下文(比如让模型读 100 页 PDF),KV Cache 就增加一些。

具体多大?单个 128K 上下文的请求,KV Cache 占用约 40 GB;4 个并发 128K 请求,KV Cache 就要 160 GB——超过 H100 的 80 GB 显存,也超过 H200 的 141 GB。

等于是硬件上出现了瓶颈,就这么大,但上下文用户需求肯定是越长越好——短了AI记不住你前面说的,怎么办?于是发明了GQA(Grouped-Query Attention),就是为了控制 KV Cache 。没有 GQA,长上下文推理几乎不可行。而这条工程优化已经被推到极限了,但 KV Cache 还在涨。

DeepSeek 自己的 V3 vs R1 数据是直接对照——同样的基座模型,加上 reasoning 后,推理成本约 5 倍、速度慢 3-10 倍。这个差距很大一部分来自 KV Cache 的累积——不是计算变慢了,是 reasoning 让模型每次回答前要展开几千甚至几万个思考 token,KV Cache 的占用因此线性放大。

目前大模型也在这方面不断优化,“硬件不够省着点用”,比如OpenAI 4月发布GPT-5.5,用比 GPT-5.4 少约 40% 的 token 达到更高的智能水平——OpenAI 在 token 效率上做了第二代优化。但GPT-5.5 单 token 价格涨了一倍,OpenAI 用价格弹性吸收了效率提升;而Anthropic Opus 4.7 反方向走,token 用量最高增加 35-40%。

两个最先进的大模型也在走相反的路,表面上看好像说不准谁是对的,但是OpenAI 自己同时在签 Cerebras 750 MW + 锁 Vera Rubin 第一批 1 GW,说明它的真实判断是:单次推理效率优化抵不过用户量 / 任务量 / 模型规模增长的总和。

推理时代真正稀缺的资源不是 GPU 算力,是装得下数据、跑得快数据的内存。 谁拿出更大、更快、更便宜的内存方案,谁就拿到推理时代的真正定价权。


二、HBM 为什么赚这么猛?

要理解这一波内存厂商为什么这么赚钱,先要把 HBM 这件事讲清楚。

1、HBM是什么?

电脑里的内存按物理结构分三类。DDR——平铺在主板上的内存条,办公电脑、服务器都在用。GDDR——游戏显卡上的内存,比 DDR 快但功耗高。HBM——AI 时代的产物,结构和前两者根本不一样。

DDR 和 GDDR 都是平面的:一颗一颗内存芯片放在 PCB 板上,通过 PCB 走线连到 CPU/GPU。这种结构的物理瓶颈是 PCB 走线密度——板子上能挤多少根线就能并行传多少数据。

HBM 是立体的。具体做法:把 8 颗、12 颗、甚至 16 颗 DRAM 芯片垂直堆叠;中间用 TSV(Through-Silicon Via,硅通孔)技术——直接在硅片上钻洞——把每一层电路上下贯通;这一整摞放在一块硅基中介层(interposer)上,通过几千条物理走线和 GPU 芯片直接连起来

这个结构的关键参数是"接口宽度"。普通 DDR5 模块/通道 64-bit,GDDR7 单颗约 32 bit。HBM3E 单堆栈的接口宽度是 1024 bit,HBM4 翻倍到 2048 bit

也就是说同一个时钟周期内,HBM4 能传的数据是 DDR5 的 32 倍。再加上一颗 GPU 旁边贴 8 个 HBM4 堆栈并联,整体带宽轻松到几十 TB/s。NVIDIA Rubin R200 的 22 TB/s 内存带宽就是这么来的:8 个 HBM4 堆栈,每个堆栈接近 3 TB/s,并联在一起。

HBM 的代际演进:

代次
单堆栈带宽
单堆栈容量
接口宽度
主流时间
HBM3
~819 GB/s
24 GB
1024-bit
2023-2024
HBM3E
>1.2 TB/s
36 GB
1024-bit
2024-2026
HBM4
2.0-3.3 TB/s
36-64 GB
2048-bit
2026 起
HBM4E
>3.0 TB/s
>64 GB
2048-bit+
2027-2028

NVIDIA Blackwell B200(192 GB HBM3E)和 AMD MI355X(288 GB HBM3E)是 2026 年第一季度的当下主力。Rubin R200 和 AMD MI455X 都跳到 HBM4——是 2026 年下半年的主战场。

2、HBM4 改变了玩法

2025-2026 年发生了产业级变化:HBM4 的工艺被转移到了先进逻辑代工厂

HBM 这一摞内存最底下那一层不是 DRAM 内存,是一颗专门负责'调度'的基础控制芯片( base die)——把 GPU 来的请求路由到上面 12 层 DRAM 里的具体某一层、做错误检查、管供电时钟。

这一层在 HBM3 及以前是 HBM 厂自己用 DRAM 工艺造的,HBM4 变了——改用台积电 12nm/3nm 或三星 4nm 这种先进逻辑工艺制造,可以集成内存控制器、ECC、电源管理、甚至客户定制的轻量级计算单元。SK 海力士选择台积电 12nm,美光也找台积电,只有三星能用自家 4nm 在公司内部完成全链条。

这件事把价值链从"内存厂垂直整合"扩展到"内存厂 + 逻辑代工 + 客户三方协作"。台积电因此拿到了一个新的杠杆——通过控制基础芯片代工产能,影响 HBM 的上市时间和分配。Marvell、博通、Alchip 这种 ASIC 设计公司也拿到了新业务——给 HBM4 设计客户专用的基础芯片逻辑。

3、HBM拉动存储毛利率干到 81% ?

美光 FY26 Q3(2026 年 3-5 月)的指引是营收 335 亿美元、毛利率约 81%。这个毛利率在 DRAM 行业过去 25 年里几乎没出现过——周期高峰期最高也就 50% 多,现在直接 81%。SK 海力士 Q1 2026 的整体营业利润率到 72%——超过台积电的 58% 和美光的 48%(Q1 2026 口径)。

原因有三层。

客户要货不问价。HBM 的买家就是 NVIDIA、AMD、Google、AWS、Meta、Cerebras 这几家。这些买家有 GPU 卖不掉的恐惧,但绝对不能容忍 HBM 短缺导致整个 AI 集群停摆。需求是高度刚性的——卡 1 美元 HBM 可能让一个数十亿美元的 GPU 集群延期上线。在这种结构下买家几乎没有议价权。SK 海力士在 2026 年 4 月的财报电话会议上原话是:"客户优先级是确保供应,不是价格"

供给侧扩张慢。HBM 产能扩张要新建晶圆厂,从动工到投产 3-5 年。三星 P5 厂 2028 年投产,SK 海力士 M15X 厂 2027 年中投产。这意味着未来 18 个月全球 HBM 供应基本就是现在三家加上小幅扩张——价格只能往上走。SK 海力士 2026 全年和美光 2026 全年的 HBM 产能都已经签约售罄。SK 海力士集团董事长崔泰源在 2026 年 3 月公开表示,全球晶圆短缺至少持续到 2030 年——即使大规模扩产能,产能扩张周期也要 4-5 年。

制造门槛高。HBM 是 3D 堆叠 + TSV,每多堆一层良率乘上一个折扣。12-Hi 堆叠的整体良率比单颗 DRAM 低 30-50%。同样的产能投入,HBM 的有效产出比普通 DDR5 少很多。更难的是 16-Hi 堆叠。HBM4 既支持 12-Hi 也支持 16-Hi,HBM4E 时代要全部转向 16-Hi。SK 海力士 2025 年底展示了 16-Hi 样品,但工艺还没成熟——谁能率先量产 16-Hi 是 HBM4E 时代的胜负手。

SK 海力士 Q1 2026 营收 52.58 万亿韩元(约 360 亿美元),营业利润 37.61 万亿韩元,营业利润同比 +405%。一份韩国媒体报道说海力士 2026 年员工人均年终奖金预计达到 47.7 万美元——这种员工分红水平在制造业历史上没有前例——从一个侧面反映出 HBM 业务利润的真实水平。


三、HBM 的群雄争霸

按 Counterpoint Research 的口径,HBM 三家在过去 5 个季度里的份额变化是这样的:

季度
SK 海力士
三星
美光
2024 Q4(营收)
51%
40%
9%
2025 Q1(营收)
~64%
13%
~21%
2025 Q2(营收)
62%
17%
21%
2025 Q3(按比特币货算)
53%
35%
11%
2025 Q3(按营收算)
57%
22%
21%
2025 Q4(营收,估算)57%~22%~21%
2026 Q1(营收,估算)57%~22%~21%

*注:比特出货是出卖了多少GB。HBM 行业两种统计份额方式——一种是按"出货了多少 GB"算(也叫"比特出货量"),另一种是按"卖了多少钱"算(营收)。两者放一起看能看出谁在卖高端货、谁在用低价抢量。

2025 Q3 的两个口径——比特出货量和营收差很多。三星比特份额反弹到 35%,但营收份额只有 22%。这是因为三星出货的 HBM 单价低(HBM3E 12-Hi 没拿到 NVIDIA Blackwell 主供,主要供 AMD MI350X/MI355X),量大但价低。

三家在 HBM 这个市场里走的是完全不同的路线,各自绑着不同的客户、各自押在不同的技术节点。

1、SK 海力士的位置最稳,但也最被动

4 月 23 日 SK 海力士发布的 Q1 2026 财报:单季营收 52.58 万亿韩元(首次破 50 万亿)、营业利润 37.61 万亿韩元(同比 +405%)、净利润 40.35 万亿韩元、营业利润率 72%——这是 DRAM 行业历史上从来没出现过的水平。HBM 价格同比涨 50%。

SK 海力士的 HBM 营收份额稳定在 57%——领先地位短期内不会变。它做对了三件事。

第一,早进场两年。2013 年 SK 海力士和当时的 AMD 一起把第一代 HBM 推上市,比三星早进入这个市场两年。这两年的工艺数据库积累,到 2024 年 ChatGPT 算力爆发的时候正好是良率拉开差距的时刻。

第二,MR-MUF 工艺——海力士独有的内存堆叠封装方法,在堆叠 12 层 HBM 时能更好地散热和保持结构稳定。三星和美光在追赶但还没完全跟上。

第三,和 NVIDIA 深度绑定——海力士 HBM 业务约 90% 卖给 NVIDIA。从 H100、H200、B200 到刚发布的 Rubin R200,主供都是海力士。

这种绑定是双向的。海力士的 HBM 路线图被 NVIDIA 的产品节奏绑住了——NVIDIA 推迟,海力士的产能就闲下来;NVIDIA 加速,海力士就要跟着扩产。这种结构在 2024-2026 年的上行周期里是好事,但在下行周期里会反过来变成单一客户依赖的风险。

2、三星差点彻底掉队,现在打翻盘战。

三星历史上是 DRAM 老大,2025 年被海力士追上。(2025 Q3 份额 33%、海力士 34%、美光 26%)。但偏偏在最赚钱的 HBM 这一块,它在 2024-2025 年掉到了第三。

掉队的原因有两条:

一是 NVIDIA 对三星 HBM3E 12-Hi 的认证测试反复没过——产业里的说法是"每次质检都过不去"。这意味着三星错过了整个 Blackwell 这一代旗舰。

二是工艺路线选择上,三星之前用的工艺节点比海力士落后一代,到 HBM4 才换成新的"6th gen 10nm-class"(1c 工艺)+ 4nm 逻辑基底。

2026 年这件事在反转。三星在 2026 年 2 月率先把商用 HBM4 出货——比海力士早。三星 HBM4 速率达到 11.7 Gbps,超过 JEDEC 标准的 8 Gbps 约 46%。三星 CEO 在 2026 年初的新年讲话里原话是:"在 HBM4 上,客户开始说 Samsung is back"。更关键的是 2026 年 3 月签的 AMD-Samsung MoU。这份谅解备忘录有三层内容:三星成为 AMD MI455X 的 HBM4 主供应商;三星给 AMD 第六代 EPYC(Venice)CPU 提供 DDR5 内存;讨论"foundry 合作的可能性"——意味着三星可能也代工 AMD 的部分 logic 芯片。

三是目前 AMD 所有的高端芯片(GPU + CPU)都在台积电流片,如果未来有部分订单转到三星 foundry,那 AMD 就形成了一条独立于"NVIDIA-海力士-台积电"的平行供应链——三星给 HBM、三星给 DDR5、三星可能给部分 foundry。

这件事的产业含义是 HBM4/5/6 时代会出现两条平行联盟:NVIDIA-海力士-台积电 vs AMD-三星

两条联盟有自己的工艺节奏、客户绑定、产能配额。这种联盟之间的竞争,比 GPU 层面的 NVIDIA vs AMD 更深、更慢、也更结构性。

3、美光是三家里唯一的美国公司

美光的份额最低(11-21% 区间,看口径),但它有两件别人没有的资产:地理位置和地缘溢价。美国 CHIPS 法案的补贴大量流向美光(爱达荷州 Boise 厂、纽约 Clay 厂)。美国国防部、能源部要求 AI 训练设施使用美国本土供应的关键组件。Microsoft、Google、AWS 在和军方/政府客户签的合同里都开始要求"供应链本土化比例"——这部分订单只有美光能拿。

更具体的是 2025 年下半年的财务表现。美光 FY26 的几个季度数字:

季度
营收
YoY
毛利率
FY26 Q1(2025/9-11)
$136 亿
+57%
~57%
FY26 Q2(2025/12-2026/2)
$239 亿
+196%
~75%
FY26 Q3 指引(2026/3-5)
$335 亿
-
~81%

Q2 的 196% 同比增长背后,主要不是售价涨价,是产能开足马力 + HBM 占比上升。Q3 指引 81% 毛利率是真正的关键数字——半导体存储行业历史上 50% 毛利率就算超级周期顶部。

美光自己对 HBM 市场的判断比所有人都激进:HBM TAM 从 2025 年 350 亿美元增长到 2028 年 1000 亿美元。这个 1000 亿美元约等于 2024 年整个全球 DRAM 市场的总规模——意思是 HBM 一个细分品类,三年内体量要追平整个 DRAM 行业。

美光当前(26年5月1日)股价 $517,市值约 5906 亿美元。过去 12 个月股价涨幅近6倍。Forward PE(按 Q3 指引年化) 5-7 倍区间。

4、SK 海力士 ADR 上市可能改写"美光独家可买性"

几件事同时在发生。

第一,IBKR 等全球券商的 KRX 接入正在变得更顺畅。韩国监管层 2024-2026 年做了一系列"投资便利化改革",简化了外国散户直接买韩股的流程。很多散户投资者通过 IBKR 现在可以直接买 SK 海力士(代码 000660.KS)和三星(005930.KS),不再需要专门开韩国本地账户。

第二,更关键的是 SK 海力士已经向美国 SEC 秘密递交 F-1(2026 年 3 月 24 日),目标在 2026 年下半年完成 ADR 上市,计划融资 96-144 亿美元、发行 2-3% 股权。承销商正在排期,路演时间预计 6-7 月。这是一些散户第一次能在美股直接买到 HBM 全球第一的纯标的。

这两件事很重要:

海力士 vs 美光的估值差距非常大——这是 ADR 上市最大的看点。SK 海力士当前 Forward PE 约 4-6 倍(不同来源不一),美光约 7-10 倍。海力士最近一季营业利润率 72%、HBM 全球份额 57%;美光最近一季毛利 81%、HBM 份额约 21%。海力士各项基本面都更强,但因为"韩国折价"(公司治理 + 指数权重低 + 地缘风险)估值反而是美光的 1/2。这正是海力士愿意花大价钱去美国上市的核心动机——用 ADR 上市来拉平估值差距

这件事对美光是一个反方向风险。美光当前估值里包含一部分"美国唯一上市的 HBM 标的"溢价。一旦海力士 ADR 上市,将可能带来美股主动/被动资金关注。后续如果纳入标普 500,则被动指数基金(标普 500 候选、SOX 半导体指数候选)会被强制买入海力士,美光的"独家上市溢价"会被稀释。

5、HBM "焊接缝"——一个被忽略的设备战场

HBM 这种 12 层、16 层堆起来的内存,层与层之间的连接靠什么?这是一个工程上极难、商业上又极挣钱的问题。当下行业里有三种主流方法:

  • "回流焊":把所有焊点像放进烤箱一样一次性熔化连起来,速度快、成本低,但焊点距离不能太近。
  • "热压焊"(TCB):一颗一颗芯片加热加压焊,精度更高,但慢。
  • "混合键合"(hybrid bonding):铜对铜直接接触,连焊点都不需要,精度最高、成本最贵,是终极方案。

三种方法对应的战场不一样。NVIDIA GPU 旁边贴 HBM 的那一道(就是台积电 CoWoS 封装的核心步骤),用的是"回流焊"。HBM 内部一层一层堆起来的那个动作,主流用的是"热压焊"。AMD 给 CPU 加缓存的 X3D 技术、Intel 下一代 3D 芯片,用的是"混合键合"。

三家 HBM 厂在这件事上分裂得厉害。

SK 海力士走的是自己独家的 MR-MUF 工艺——基于回流焊改良的,12 层堆叠良率全行业最高,这是它能拿下 NVIDIA 90% 份额的真正护城河。三星和美光走的是 TC-NCF(热压焊)。

到了 HBM4 这一代,路线进一步分化:SK 海力士能用 MR-MUF 就继续用;三星直接押注混合键合(它内部叫 HCB),但据 SemiAnalysis 报道目前良率只有约 10%,而盈亏平衡需要 60% 以上;美光继续 TC-NCF。混合键合什么时候真的成为 HBM 主流?最新的判断是大约 2028 年,因为2025 年JEDEC(半导体行业的国际标准组织)在新一代 HBM 标准里放宽了封装高度限制,这意味着 SK 海力士的 MR-MUF 工艺至少还能再用一代。三星之前押注新工艺以期弯道超车,这一手让它的新工艺投入回收期被拉长。

设备供应商这一层也正在剧烈洗牌。SK 海力士原本只用韩国公司 Hanmi 的热压焊设备(独家),2024 年底起新加坡/香港的 ASMPT 切入、目前在 SK 海力士的 TCB 设备装机量里已经占到约一半。Hanmi 因此和另一家叫 Hanwha 的韩国公司爆发了专利诉讼战,2024/12 Hanmi 先告 Hanwha,2025 年 Hanwha 反诉。Hanmi 在 SK 海力士的份额预计 2026 年会从 100% 跌到 20-30%。三星用自家 SEMES 的设备做内部循环。美光最关键的变化——HBM4 全面转向荷兰的 BESI(原因:HBM4 精度要求更高、加上地缘考虑——美光是 NVIDIA 的关键供应商,不愿用总部在亚洲的 ASMPT)。

另外。长鑫(CXMT)在 HBM3 级别已经国内 AI 芯片厂商交付样品,2026 年量产目标。短期看,长鑫存储即便优先满足国内 AI 芯片客户,也会削弱三星、海力士、美光在中国可获得市场里的潜在需求,尤其是过去对华 HBM 曝露更高的三星。但在 NVIDIA、AMD、Google、AWS、Meta 这些海外高端认证市场里,长鑫短期还很难直接替代三大厂。真正的变量在今年下半年及以后:如果长鑫 HBM3/HBM3E 良率、封装、客户认证稳定下来,它会成为全球 HBM 周期下行和估值压缩的重要变量。

美国 2024 年底已经把 HBM2 及以上 HBM 纳入对华出口管制;所以长鑫进入 HBM,不只是“抢市场”,也是在填补被管制切开的本土供给缺口。


四、芯片厂的联盟与部落

前面有提到AMD 和 英伟达都在造自己的大内存算力,但他们自己不造内存,于是联盟与部落就这样形成了。

AMD 只做芯片设计,不做制造,也不做内存。它的高端 GPU 卡造出来分五步:

  1. AMD 设计 GPU 核心和 chiplet 布局——MI455X 用 CDNA 5 架构,3200 亿晶体管,12 个 chiplet
  2. 台积电制造 GPU chiplet——MI455X 的 GCD(Graphics Compute Die)用 TSMC N2,MCD(Memory Controller Die)用 TSMC N3P
  3. 三星和美光制造 HBM——MI350X/MI355X 的 288 GB HBM3E 由三星和美光双供;MI455X 的 432 GB HBM4 由三星主供(2026 年 3 月 MoU 确认)
  4. 台积电做 CoWoS 封装——把 GPU chiplet 和 HBM 封装到同一块硅基中介层上
  5. 测试 + 整机集成 + 出厂

一颗 MI455X 完成品里,AMD 自己只负责"设计 IP"和"销售"。GPU 制造是台积电的,HBM 是三星/美光的,封装也是台积电的。AMD 在自己的旗舰 AI GPU 里直接控制的物料成本占比不到 30%

NVIDIA 的逻辑完全一样。NVIDIA H100/H200/B200/R200 全是 fabless 模式:GPU 由台积电制造,HBM 主供 SK 海力士(Vera Rubin 加上美光、三星各一部分),封装是台积电 CoWoS-L。

理解了这一点之后,联盟与部落的格局就清晰了。

NVIDIA 这一侧是一个稳定的联盟

角色
公司
内容
GPU 设计 + 软件
NVIDIA
CUDA 软件栈 + NVLink 6 互连
HBM 主供
SK 海力士
海力士 HBM 业务约 90% 卖给 NVIDIA
制造 + 封装
台积电
GPU 流片(N3) + CoWoS-L 封装

这个联盟稳定了至少 5 年。每代 GPU 升级都是三方协同。外部新玩家很难插入这个三角,因为任何一方调整都需要其他两方配合。

AMD 这一侧的格局正在 2025-2026 年从”散兵游勇”变成“为了部落”

角色
公司
内容
GPU 设计 + 软件
AMD
ROCm 软件栈 + UALink 开放互连
HBM 主供
三星(HBM4)
三星之前没拿到 NVIDIA 单子,集中全力供 AMD
DDR5(CPU 内存)
三星
给 AMD Venice CPU 配 DDR5
制造 + 封装
台积电(主) + 三星 foundry(部分)
MI455X 仍在台积电流片,但 MoU 暗示部分订单可能转到三星

注意第四条的"部分转向三星"——目前还没有明确公告,只是 MoU 里讨论的可能性。但这件事如果发生,AMD 就形成了一条完全独立于 NVIDIA-海力士-台积电三角的平行供应链。

这件事的市场冲击在 2025 年 10 月到 2026 年 4 月之间被反复验证——头部客户对 AMD 的下注规模大到出乎市场预期。

OpenAI:6 GW(2025/10)。OpenAI 锁定 6 GW AMD GPU,每颗 MI450/MI455X 都对应 432 GB HBM4。AMD 给了 OpenAI 一个最多 1.6 亿股的认股权证(约占 AMD 10%、行权价 0.01 美元),OpenAI 拿股权换长期采购。

Meta:6 GW(2026/2)。Meta 5 年期锁定 6 GW,首批 1 GW 部署从 2026 H2 开始。同样是 warrant + 长协的结构。

xAI:AMD 的 Helios rack 客户名单里也有 xAI(Register 报道)。

云厂商已经认识到,未来 3 年的瓶颈不是 GPU 设计,是 GPU 旁边那几块内存的产能。它们用长期合同 + 股权 warrant 的方式把整条供应链一起锁住——其中最关键的就是 HBM 配额。


五、HBM 之外—— 新创新想绕过

既然 HBM 这么短缺,云厂商怎么就这样硬等?有没有别的办法把推理的内存瓶颈解决掉?

当然,大家都在想办法。

KV Cache 已经超过模型权重本身,成为推理的内存主体,于是在这个层面大家都在优化。Llama 3.1 70B 在 128K 上下文 + 4 个并发的场景下,KV Cache 占用 160 GB——超过 H100 80 GB 显存的两倍。云厂商的应对不是"等 HBM",而是把 KV Cache 分层放到不同速度、不同价格的内存里

  • 最热的活跃 token KV → GPU 上的 HBM(几十纳秒延迟、几 TB/s 带宽)
  • 温热的 KV → CPU 上的主机 DRAM(约 100 ns 延迟、几百 GB/s 带宽)
  • 冷的 KV → CXL Memory 或本地 NVMe SSD(几百纳秒到几十微秒延迟、几十 GB/s 带宽)
  • 持久化的 KV / 模型权重 → 远端存储或 NVMe-oF

这条分层架构已经在生产环境跑起来了。阿里云的 PolarKVCache 和腾讯云 FlexKV 显著降低了 TTFT、提升吞吐,并把 KV Cache 从 GPU HBM 扩展到 CPU DRAM、本地 SSD 或远端存储。

Google GKE 的 tiered KV cache 走同一条路:HBM 是最热层,节点本地存储当次热层,目标是尽量提高 HBM 命中率,把最贵的一层用在最贵的数据上

云厂商真正的推理基础设施不是 GPU + HBM,是一整套异构内存子系统。HBM 只是其中最贵、最稀缺、最热的一层,但下面三层的产能扩张相对没那么紧张,而且对应的是几条独立的投资线。

第一条:CXL Memory(Compute Express Link 内存)

CXL 是基于 PCIe 5.0 的内存互连协议,允许 GPU/CPU 共享一个跨设备的大容量内存池。字节跳动的实测数据(基于 Astera Labs A1000 CXL 内存扩展器)是这样的:CXL 本地延迟 251 ns(对比本地 DRAM 97 ns),带宽 48 GB/s(对比本地 DRAM 70.8 GB/s)。延迟比 DRAM 高 2.6 倍,带宽低 32%——但容量可以扩展到 100 TB+ 级别

学术研究显示在 KV Cache 场景下,Llama 推理的 batch size 可以从单纯 DRAM 配置扩大 1.14-2.11 倍,decode 阶段吞吐量平均提升 42%。XConn 和 MemVerge 演示的方案声称在长上下文场景下能实现 21.9 倍吞吐量提升。

Astera Labs 的 Leo 系列 CXL 智能内存控制器是当前最成熟的商用方案,已在 Microsoft Azure M-series 上量产部署。Astera 同时是 NVIDIA Hopper、HGX、NVL72 平台的 PCIe 重定时器主力供应商,并参与下一代 NVLink Fusion 生态。

第二条:LPDDR5X 和 SOCAMM/SOCAMM2 模块

LPDDR5X 原本是手机和笔记本上的低功耗内存,但 NVIDIA Grace CPU 用了 480 GB LPDDR5X,带宽 500 GB/s——把它从消费电子拉回了数据中心。JEDEC 推出的 SOCAMM(Small Outline CAMM)标准专为 AI 服务器设计,功耗比传统 RDIMM 低 55%、体积小 2/3。SK 海力士 2026 年 4 月开始量产 192 GB SOCAMM2 模组,基于 1c 工艺。

LPDDR5X 在数据中心的应用案例很具体。Intel 的下一代推理专用 GPU "Crescent Island"——预计 2026 年下半年客户采样——明确放弃 HBM,转用 160 GB LPDDR5X。Intel 的判断是:在 token-as-a-service 场景下,容量优先于带宽,LPDDR5X 配 160 GB 容量比 HBM 配 80 GB 在某些工作负载里更划算——LPDDR5X 每 GB 价格只有 HBM 的 1/4。NVIDIA 在 Vera Rubin 平台里加了一颗 Rubin CPX,用 GDDR7 替代 HBM 处理 prefill 阶段——同样是承认"HBM 不是万能解"。

第三条:DDR5 RDIMM 和 MRDIMM 内存接口芯片

服务器主流 CPU 内存。Intel Granite Rapids 支持 MRDIMM-8800,双路系统带宽达 880 GB/s——已经接近 HBM 入门款的水平。这条线的核心受益方是澜起科技——RCD 内存接口芯片全球龙头,DDR5 第三代 RCD 已大规模量产、订单排到 2027 年 Q4。

在 HBM 紧缺的窗口期,补 HBM 短板的"第二条线"自己就构成了一个 200+ 亿美元的投资市场。HBM 三家拿走最大蛋糕,但 Astera Labs、SK 海力士的 SOCAMM、Micron 的 LPDDR、澜起的 RCD,这些被忽视的"补 HBM"角色每一家都有自己的成长曲线。


六、Cerebras——把内存焊到芯片上的另一条路

主流内存战的格局:NVIDIA 和 AMD 都在用同一种方式解决内存问题——更大、更快的 HBM 贴在 GPU 旁边,然后市场还在用 CXL/DDR/SSD 分层补短板。

但还有一家公司从一开始就拒绝走这二条路。它的判断是——HBM 旁路这件事根本不该存在。最优解是把内存焊在芯片本体里。

这家公司叫 Cerebras Systems。2026 年 4 月 17 日刚刚提交 IPO 申请。

6.1 Cerebras 在做什么

核心产品叫 WSE-3(Wafer-Scale Engine 3)。物理参数:

  • 整块芯片用一整片 12 寸晶圆做成——面积 46,225 平方毫米,约一个晚餐盘大小
  • 比 NVIDIA H100 大 57 倍(也常被引用为"比 B200 大 58 倍",数字差异源于参照系不同——H100 单 die 是 814 mm²,B200 是双 die 拼接、单 die 约 800 mm²)
  • 4 万亿晶体管,90 万个 AI 核心
  • 内存是 44 GB SRAM(不是 HBM),全部嵌在芯片本体上
  • 内存带宽 21 PB/s(21,000 TB/s)
  • 制造工艺:台积电 N5

NVIDIA 和 AMD 的做法是把许多 ~800 平方毫米的小芯片用 NVLink、CoWoS、HBM 连起来组成 AI 集群。Cerebras 的做法是——别切了,直接做一整块

两条路线代表两种哲学。NVIDIA / AMD 路径:用许多小芯片 + 复杂的互连和封装技术。优点是每颗芯片良率有保证、可以分批生产、客户可以按需配置;缺点是芯片之间的通信成为瓶颈、HBM 跨片访问还是需要时间、CoWoS 封装容量限制了集群规模。Cerebras 路径:用一整片晶圆做一颗芯片,把内存全部内置。优点是内存到计算核心几乎零延迟(21 PB/s 内存带宽就是这么来的)、芯片内部不需要外部互连、功耗效率更高;缺点是良率挑战巨大、产能扩张难、散热和供电极其复杂(一颗 1500W+ 的"芯片"需要全新的物理形态)。

回到推理这件事——在 NVIDIA GPU 上模型权重要走 HBM-CoWoS-Cache-计算核心几层物理路径才能到位;在 Cerebras 上模型权重直接就在计算核心隔壁——基本不需要搬运。这就是为什么它的内存带宽能到 21 PB/s,比 NVIDIA Rubin 高近 1000 倍

但有几个重要限制容量限制:WSE-3 单片只有 44 GB 片上 SRAM,装不下 70B 以上的模型(全精度)。要跑 405B、671B 这种大模型,Cerebras 要把模型切成多片,跨片通信仍然是瓶颈,速度优势会下降。

功耗极高:单颗 WSE-3 约 1500W+,整套 CS-3 系统约 23 kW——是普通数据中心机柜功耗的 5-10 倍,部署 Cerebras 必须找特殊改造的数据中心。

良率:晶圆级芯片按经典缺陷分布的泊松定律,理论良率为零。Cerebras 通过把单核缩到 0.05 mm²(只有 H100 SM 核心 6.2 mm² 的 1%)实现了 164 倍的缺陷容忍度——硅利用率约 93%。但 IPO 招股书没披露"实际多少比例的核心被屏蔽"——这是评估其真实生产成本的关键数据空白。

6.2 客户清单很广

OpenAI(2026/1 签 750 MW 协议、合同价值超 200 亿美元、附带 OpenAI 给 Cerebras 的 10 亿美元低息贷款) AWS(2026/3 签约、AWS 首次将 Cerebras 晶圆级推理芯片整合进 Amazon Bedrock,与 Trainium 形成 prefill/decode 分离架构) Meta(2025/4 起合作 Llama API、Llama 4 Maverick 400B 模型在 WSE-3 上跑达到 2,500+ tokens/sec/user) IBM、Mistral、Cognition、AlphaSense、Notion——AI 应用层 GSK、AstraZeneca——制药行业(GSK 2020 年起就在用 CS-1 做基因组学研究) Mayo Clinic——医疗诊断 美国能源部、美国国防部——政府客户 TotalEnergies——能源(法国 1000 亿美元市值公司) ZS Associates——咨询行业 MAX.AI 平台

Meta 选 Cerebras 给 Llama API 做推理后端,是 Cerebras 商业模式的一个真正背书——Meta 自己是 Cerebras 创始团队的部分早期人才来源(SeaMicro 后来被 AMD 收的),Meta 对底层硬件的判断比一般客户更专业。Meta 选 Cerebras 不是为了押注未来,是为了今天的推理速度——Llama 4 Maverick 在 Cerebras 上比 NVIDIA Blackwell B200 快 2-3 倍。

但是,2025 年的实际收入分布仍然高度集中在 UAE 两家实体:MBZUAI(穆罕默德·本·扎耶德人工智能大学)占 62%,G42 占 24%——合计 86%。这是 Cerebras 估值的最大悬念——客户名单看起来很豪华,但实际付钱的还是阿布扎比的两家关联实体。OpenAI、AWS、Meta 这些合同要等到 2026-2028 年才会陆续确认收入。

6.3 财务真相——一个会计陷阱

Cerebras 招股书上的数字看起来很漂亮:

  • 2025 年营收 5.10 亿美元(+76% YoY)
  • 2025 年 GAAP 净利润 $237.8M(2024 年还是亏损 $481.6M)
  • 履约义务总额(RPO)$246 亿美元(主要是 OpenAI 合同)

这个"GAAP 转正"故事有一个致命的细节

2024 年 Cerebras 和 G42 签了一份预付远期股权合同,这份合同被记入"远期合同负债"$401M。2025 年这笔合同被 CFIUS 国家安全审查,最终被重组——重组的会计后果是这笔负债被一次性移出资产负债表,产生了 $363.3M 的一次性非现金会计收益

把这笔一次性收益剔除,再加上 $49.8M 股权激励(SBC),Cerebras 2025 年实际非 GAAP 净亏损 $75.7M——比 2024 年的非 GAAP 亏损 $21.8M 恶化了 247%。

也就是说,Cerebras 实际的经营层面比 2024 年更差,不是更好。"GAAP 扭亏为盈"完全是会计处理的产物,不是经营改善。

这件事在产业新闻里被反复忽略,但所有专业读者都应该注意到。**用 GAAP 数字判断 Cerebras 有问题的。

剔除 G42 一次性收益后的真实情况是:研发费用占营收 48%、营业亏损 10M、资本支出 13.4 亿,但 2026 年要建设 OpenAI 750 MW 部署所需的数据中心,现金消耗速度可能加快。IPO 募资 ~20-30 亿美元对它执行业务计划至关重要。

6.4 非 HBM 路线的其他玩家

Cerebras 的"非 HBM 路线"不是它一家在走。还有几个值得知道的玩家。

Groq——和 Cerebras 同样押"片上 SRAM > HBM"的路线,但路径不同。Groq 的 LPU 用 500 MB SRAM(WSE-3 的 1/88),靠 96 个 112 Gbps 芯片间链路把许多 LPU 连起来跑大模型。Llama 2 70B 推理速度达到 ~300 tokens/sec(对比 H100 30-40 tokens/sec),但跑 70B 模型需要 576 个 LPU 协调——成本据报道是同等吞吐 H100 部署的 40 倍。NVIDIA 在 2025 年 12 月以约 200 亿美元的代价拿到 GROK非独家技术授权 + 核心团队加入 NVIDIA——是 NVIDIA 32 年来最大单笔交易,表明 NVIDIA 自己也承认 GPU + HBM 单一架构覆盖不了所有推理场景。Groq 3 LPX 已被整合进 NVIDIA Vera Rubin 平台,作为延迟敏感场景的辅助加速器。

SambaNova——三层内存架构(SRAM + HBM + DDR),试图覆盖更广的工作负载。SN40L 单 rack 支持 5 万亿参数。但 SambaNova 在 2025 年裁员、战略重心转向推理服务。Intel 据报道考虑以 16 亿美元收购。

Tenstorrent——RISC-V 架构 + GDDR6,主打高性价比和开源生态。由 Jim Keller 领导(芯片业老将,曾在 AMD/Apple/Tesla),已获得现代汽车和三星的战略投资,下一代芯片用三星 foundry 制造。

把这几家放在一起看,Cerebras 不是孤立的"晶圆级怪胎",而是"非 HBM 推理芯片"光谱里最成功的一家。这条光谱的共同主题是——在某些推理场景里(超低延迟、小到中等模型规模、对成本不敏感),片上 SRAM 比 HBM 是更好的解。但所有这些公司面对同样的天花板:CUDA 生态护城河、SRAM 容量限制、客户多元化挑战、TSMC 产能争夺。

最值得注意的产业信号是——Google TPU 8i 把片上 SRAM 增加到 384 MB(前代 3 倍)、Microsoft Maia 200 配 272 MB SRAM(HBM3E 由 SK 海力士独家供应)。两家产业级 ASIC 设计者都在加大片上 SRAM。这是产业默认承认 Cerebras 哲学有道理的反向印证——只是没人走 44 GB 那么极端,但 200-400 MB 这个量级正在变成 ASIC 推理芯片的新标配。

6.5 有趣角度:方案优化后的很多东西还是这三家

除了片上 SRAM 之外,几乎所有"补 HBM 短板"的方案最后还是这三家在供。SOCAMM2 是 SK 海力士做的、LPDDR5X 三家都在做、HBF 是 SK 海力士和 Sandisk 主导的、DDR5/MRDIMM 是三家共有的市场。这就是为什么 HBM 三家在 2026 年的财报里出现整体毛利率拉升——不只是 HBM 一个品类涨价,是整个产品组合都在涨。

三星是这条产业链上唯一一个同时跨内存厂和逻辑代工厂的玩家。即使工艺路线发生剧变,三星都能拿到一块——这就是为什么三星 2026 年敢押 HBM4 + foundry + DDR5 三条线同时投入,它有别人没有的对冲。


七、ASIC 赛道——对 HBM 三家有何影响?

讲完 GPU 主线和 Cerebras 异类,第三条赛道是 ASIC——专用集成电路。代表是 Google TPU、AWS Trainium、Microsoft Maia、Meta MTIA。

这条赛道挑战的是NVDIA的位置,但对HBM也有较大影响。

当前,ASIC赛道在 2026 年发生了重大变化。Anthropic 一边与 AWS 锁定最多 5GW Trainium 算力,一边与 Google/Broadcom 签下多 GW 下一代 TPU 供应安排;同时,Google 对 Anthropic 的投资承诺最高可达 400 亿美元。  这些交易说明 ASIC 阵营已经从“实验性自研”进入“GW 级部署”。

ASIC 兴起对 NVIDIA 的影响清晰——份额会被切走,从 80%+ 滑到 50-60% 区间。但对 HBM 三家来说,这件事的影响要分两层看

7.1 第一层:ASIC 阵营本身大量使用 HBM

ASIC
HBM 配置
Google TPU v7(Ironwood)
192 GB HBM3E、7.4 TB/s
Google TPU v8t(训练用)
HBM4,2027 下半年
Google TPU v8i(推理用)
HBM4 + 384 MB 片上 SRAM
AWS Trainium 2
96 GB HBM3
AWS Trainium 3
HBM3E(产能向 SK 海力士采购)
Microsoft Maia 200
216 GB HBM3E + 272 MB SRAM
Meta MTIA 2
128 GB HBM3E

所以一个事实非常清楚——ASIC 阵营的所有玩家都是 HBM 三家的客户。Anthropic 100 万颗 TPU v7 的订单,对应 192 万颗 HBM3E(Google 自然要从三家买);AWS 5 GW Trainium,对应至少 100 万颗 HBM;Microsoft 5 GW Maia 200,同样的量级。

ASIC 阵营每多签一个 GW,HBM 三家就多一份订单

具体到三家的客户结构:

  • 海力士:原本绑定 NVIDIA(90% HBM 给 NVIDIA),HBM4 时代会拓展到 Google TPU、AWS Trainium 3
  • 三星:HBM4 主供 AMD MI455X,同时是 Google Tensor、AWS Graviton 等多个非 NVIDIA 客户的内存供应商
  • 美光:原本份额最小,但因为美国本土供应链溢价,在 AWS Trainium、Microsoft Maia 上的份额持续上升

ASIC 兴起从客户结构上反而是三家的利好——把"被 NVIDIA 单一客户卡脖子"的风险分散了

7.2 第二层:片上 SRAM 路线是不是在替代 HBM?

这是关于 ASIC 路线最大的担心——Google TPU 8i 加 384 MB 片上 SRAM、Microsoft Maia 200 加 272 MB 片上 SRAM、Cerebras WSE-3 极端到 44 GB 片上 SRAM。这条路是不是在替代 HBM?

对三家是负面的部分:片上 SRAM 是台积电(或三星 foundry)流片时一并做出来的,不是三家做的内存。每多一颗 SRAM-rich ASIC,台积电多赚一笔 SRAM 流片费,三家少卖一些 HBM。价值确实在从内存厂转移到逻辑代工厂。

但实际影响远比看起来小

  1. 片上 SRAM 是 L3 缓存级别,HBM 是主存级别——两者不是替代关系,是配合关系。TPU 8i 384 MB SRAM 配 192 GB HBM4(推测);Maia 200 272 MB SRAM 配 216 GB HBM3E。SRAM 增加不减少 HBM,反而因为 ASIC 算力变强,需要的 HBM 总量更多。
  2. 真正"完全不用 HBM"的极端方案只有 Cerebras(44 GB SRAM、零 HBM)。但 Cerebras 受限于晶圆级产能,5 年内绝对量都很有限。
  3. 从 ASIC 总数量看,HBM 总需求是上升的。即使每颗 ASIC 配的 HBM 比 NVIDIA GPU 少 30-50%,但 ASIC 总出货量是 NVIDIA GPU 的 2-3 倍——HBM 总需求净增加。

所以片上 SRAM 路线对三家的影响是"价值链略有转移,但绝对量级上升"——是慢侵蚀,不是替代。

7.3 ASIC 兴起对三家是结构性利好

ASIC 兴起对英伟达是真威胁,对 HBM 三家是结构性利好。

  • 客户结构:从"NVIDIA 一家独大"分散到"NVIDIA + Google + AWS + Microsoft + Meta + Anthropic"——议价权对三家更有利
  • 总需求:ASIC 阵营每签一个 GW,HBM 总需求增加一份订单
  • 份额转移风险:片上 SRAM 是慢侵蚀,5 年内不动摇 HBM 主存地位
  • 价值链分布:少量价值(约 5-10%)转移到台积电(SRAM 流片),但 HBM 主存这块大头还在三家

NVIDIA 份额 ASIC 抢走一部分、ASIC 互相竞争、Cerebras 走极端路线——所有这些情景下,HBM 三家都是受益方。


八、HBM三家利润会超过英伟达?

把整条推理产业链拆完之后,回头看最有意思的现象是:这条链上最赚钱的环节不是设计 AI 芯片的人,是给 AI 芯片配内存的人

HBM 三家可能赚得比英伟达还多?

NVIDIA FY26 营收约 $216B,GAAP 净利润约 $120B,当前市值约 $4.85T

SK Hynix、Samsung DS、Micron 在 2026 年内存超级周期下,合计利润达到或超过 $150B 是有可能的。

三家当前合计净利润已经接近英伟达单家。但市值相差仍大,因三星半导体没有单独上市,但如果参照另外2家给一个平均的业务估值,并把三家相家,目前市值差不多是2-2.5万亿,也就是三家合计差不多英伟达的40-50%。

未来三家合计利润超过英伟达也不算太惊奇,主要得益于几个点:

一是HBM 工艺门槛不亚于 GPU

HBM 的物理制造与封装良率门槛,已经高到不亚于先进逻辑芯片;而且它不是“设计一颗芯片”,而是把 12–16 层 DRAM 稳定、低功耗、高良率地堆起来。

GPU 的真正门槛在三件事——架构设计(CUDA + 软件栈 + NVLink)、流片制造(台积电先进工艺)、生态系统(开发者 + 库 + 框架)。其中英伟达自己掌握的是架构和生态,制造这一块靠台积电

HBM 的门槛在四件事——DRAM 工艺、3D 堆叠 + TSV、MR-MUF / hybrid bonding 等封装工艺、客户协同设计。这四件事三家自己掌握

把工艺难度横向比一下:

  • GPU 是平面单层晶圆,HBM 是 12-16 层垂直堆叠
  • GPU 良率挑战在晶体管密度,HBM 良率挑战在堆叠 + TSV + 焊接 + 封装四个维度同时
  • GPU 架构突破靠英伟达自己设计,HBM 架构突破靠三家与客户共同设计基础芯片
  • 三星几次卡在 HBM3E 12-Hi 的 NVIDIA 资格认证上——这就是工程难度的直接证据

HBM 物理制造的难度确实和 GPU 相比并不显得低。这也是为什么这个市场只有 3 家玩家加 1 个追赶者,而 GPU 市场有 10+ 家玩家。

二是HBM 是"基础供给",GPU 是"单一架构"

这一层比工艺门槛更关键。

GPU 市场是英伟达 vs AMD vs Trainium vs TPU vs Maia vs MTIA vs Cerebras vs Groq vs 华为昇腾——至少 10+ 玩家在竞争同一份算力订单。未来 5 年英伟达在 AI 加速器上的份额大概率会从 80%+ 下降到 50-60% 区间——不是因为英伟达做得不好,是因为云厂商不愿意把命运绑在一家身上,所有 hyperscaler 都在自研 ASIC。

但 HBM 不一样。所有这些 GPU、ASIC、TPU、Trainium、Maia、MTIA 都需要 HBM——除了 Cerebras 走片上 SRAM 那条极端路径(占比很小)。

所以 HBM 三家的真正护城河不是"在 HBM 内部独占份额",是"无论谁赢算力之战,HBM 三家都拿到一笔"。

GPU 厂家之间的份额转移会让英伟达的利润被分摊,但不会让 HBM 三家的总订单减少。HBM 是 AI 算力赛道的基础供给,GPU 是赛道里互相竞争的单一架构。前者比后者更接近"卖铲子"的位置。

把工艺门槛 + 行业结构合起来看,5 年内三家合计净利润超过英伟达单家的概率不低

三是HBM 在产业链上的议价权会超过GPU

NVIDIA 一颗 GPU 的物料成本里,HBM 占大约 30-40%。AMD MI455X 的物料成本里 HBM 占比可能更高(因为它配 432 GB HBM4,比 NVIDIA 多)。HBM 三家拿走的利润占整条链的比例,正在追上 GPU 设计公司本身。

GPU可以扩产——TSMC 多开几条 3nm/2nm 产线,NVIDIA 和 AMD 可以快速增加 GPU 出货。但 HBM 的产能扩张要新建晶圆厂,3-5 年。所以未来6-12 个月,HBM 是整条链上议价权最强的环节

关注存储,主要关注三件事

第一是 HBM TAM 的真实增长速度。美光的 350 亿到 1000 亿(2025-2028)是个非常激进的预测。如果 reasoning 模型 + Agent + 长上下文这三件事真的让 HBM 需求曲线一直陡峭,这个数字会兑现;如果其中任何一件出现退潮(比如 Google 在 2026 年发布的某种压缩技术让单 token HBM 消耗下降),数字会打折。

第二是 产能扩充的速度。HBM 是 DRAM 的一个分支,DRAM 历史上每 3-4 年一个周期。三星 P5 厂 2028 投产、海力士 M15X 厂 2027 投产、美光 Boise/Clay 厂 2026-2027 陆续上线,2028-2029 年 HBM 产能会涌出来一大波。

第三是 晶圆级 + ASIC + 端侧推理的份额抢夺。Google TPU 8i + Microsoft Maia 200 加大片上 SRAM、Cerebras 把内存全焊到芯片本体上、NVIDIA Rubin CPX 用 GDDR7、Intel Crescent Island 用 LPDDR5X——这些都在试图减少对 HBM 的依赖。如果这些方案被市场广泛接受,HBM TAM 增长会放慢。

总体来说,存储体现典型的不对称风险结构——5-7 倍 PE 已经按周期会回归定价,如果周期不成立则估值可能会被重估。

接下来进入最核心的问题,HBM三家到底是不是周期股?


九、HBM 是周期股还是 AI 基础设施?

这是本篇的核心问题:到底是周期股,还是基础设施?

如前所说,三家很赚钱,但市场没有给到和英伟达接近的PE。市场只是在定价一件事:HBM 是 DRAM 的一个分支,DRAM 是教科书级周期性行业

这次会不一样吗?


1、过去 30 年存储行业的"标准剧本"

存储行业过去 30 年至少经历了 5 轮明确的周期,每一轮的剧本几乎一样。

1995-1996 年:PC 普及推动 DRAM 需求暴涨,20+ 家厂商扩产。1996 年价格腰斩,日本 DRAM 厂开始退出。

2000-2001 年:互联网泡沫推高需求预期,三家加速扩产。泡沫破灭后 DRAM 价格一年跌 80%。1999 年 NEC 和 Hitachi 合并 DRAM 业务成立尔必达(Elpida),三菱 DRAM 业务在 2003 年被并入。

2007-2008 年:Vista + 服务器需求驱动扩产,金融危机砸下来。DRAM 价格 18 个月跌 90%。奇梦达(Qimonda)2009 年破产,尔必达 2012 年破产被美光收购——这一轮把 DRAM 行业从 5-6 家压缩到现在的 3 家寡头。

2018-2019 年:云厂商集中采购推高价格、三家扩产;2018 年云厂商库存够了 + 中国长鑫引发供给焦虑,2018 Q3 到 2019 Q4 大约 18 个月 DRAM 合约价跌幅约 50%。三星 DRAM 营业利润率从 60%+ 跌到 30%。

2022-2023 年:疫情期间居家办公推高 PC、手机出货 → DRAM 价格涨;2022 年宏观下行 + 客户库存高 + 三家继续扩产 → 价格 18 个月跌 70%。三星 2023 年存储业务营业亏损——这才不到三年前的事。

这 5 轮周期合起来看,DRAM 周期有标准剧本

  1. 某个新应用驱动需求暴涨(PC、互联网、智能手机、云、远程办公)
  2. 三家厂商被高利润吸引,加速扩产
  3. 应用层需求增长放缓、或出现替代品、或客户库存满了
  4. 供给追上需求,价格腰斩、毛利率从 50%+ 跌到个位数甚至负数

周期的本质是「需求侧增长会停下来,但供给侧扩产惯性还在」——这是过去 30 年所有 DRAM 周期的共同结构。

理解了这个结构,"这次会不会一样"就压缩成一个具体问题:AI 推理对内存的需求,会像过去那 5 次的应用驱动一样,最终增长放缓吗?


2、三个重要视角

视角1:30 年没出现过的信号:整个存储栈一起卖光

2026 年最反常的地方,不是 HBM 缺货,而是整个存储栈同时紧张:HBM 紧,DRAM 紧,NAND 紧,nearline HDD 也紧。希捷近线硬盘产能大部分已经分配到 2027 年;美光则明确说,数据中心 DRAM 和 NAND 的需求都受到供给不足限制。

过去存储周期常常是单品类轮动,这一次更像是 AI 把热数据、温数据、冷数据、持久化数据全部同时点燃。

希捷 Q3 FY26 财报会议上,CEO Dave Mosley 原话是「近线 HDD 产能几乎全部预分配到 2027 年」,毛利率 47% non-GAAP——这是 HDD 行业历史上从来没出现过的水平。同时点,SK 海力士 Q1 2026 营业利润率达到 72%;美光 FY26 Q3 公司整体毛利率指引约 81%。这不是“HBM 单品毛利率 81%”,而是 AI 内存短缺把整家公司利润率抬到了半导体史上罕见的高位。同一时期,NVIDIA FY26 Q4 毛利率约 75%,台积电 Q1 2026 毛利率 66.2%、营业利润率 58.1%。不同会计口径不能机械横比,但可以说明一件事:AI 内存公司的利润率已经不再像传统 DRAM 周期里那样只是“短暂修复”,而是进入了极端紧张的利润窗口。

过去那 5 轮存储周期,都是单品类轮动——某一个细分先紧、其他松。1995 年是 DRAM 紧、HDD 稳;2007-2008 年是 DRAM 暴涨然后暴跌、NAND 走自己的节奏;2018 年是 DRAM 紧、NAND 已经开始走弱;2022 年是 NAND 紧、DRAM 开始去库存。从来没有过整个存储栈一起卖光的状态。

为什么过去是轮动?因为传统的存储需求是分层错峰的——服务器换代驱动 DRAM、手机换代驱动 NAND、企业归档驱动 HDD。这些需求曲线互不重叠,所以历史上的周期是某一个品类涨另一个品类跌。三家公司的毛利率从来没有同时超过 60%

但 AI 推理是唯一一种同时拉爆所有存储层级的需求:

  • HBM 装活跃 token(最热)
  • DDR / SOCAMM 装温热 KV Cache
  • NVMe SSD 装冷的历史上下文
  • HDD 装持久化的训练数据 + agentic AI 中间产物

希捷 CEO 在电话会上明确指出,AI 推理、agentic AI、物理 AI(自动驾驶 / 机器人)正在放大数据创造。希捷自己的估算是单辆自动驾驶汽车每小时可以产生约 4 TB 数据。OpenAI Sora 视频生成、特斯拉 Optimus 机器人训练、agentic AI 任务中产生的工具调用日志——所有这些数据都不会消失,都需要被存下来,都需要在被需要的时候被读出来

「整个存储栈一起卖光」这件事在过去 30 年的存储周期史里没有先例,它本身就是结构性变化的硬证据。

视角2:类比电力革命比造船业更准确

我看到很多媒体会用造船业 2021-2022 年那一波做外部类比——产能严重短缺、订单排满 5-7 年、单船价格创历史新高、行业利润率超过 30%,最后周期下来了。这个类比看起来很贴,但其实是错的。

造船业那一波本质上是全球贸易的一次性需求冲击——疫情打乱供应链 + 集装箱短缺。需求侧的逻辑是:消费者居家时间多、电商爆发、海运量暴涨。这个需求侧有自然回归的力——疫情结束、消费回归、电商常态化,需求曲线就回到原来的位置。所以造船业周期 2024 年下来了。

AI 推理的需求侧不是这种结构。更准确的类比是 1880-1920 年的电力革命

那 40 年里,电力需求增长了几百倍。期间发电设备制造商(GE 的前身)、铜线制造商、变压器制造商利润都很高,一直高了将近半个世纪,没有"周期回归"。

为什么?

第一,电力本身打开了新的应用层。工厂从蒸汽改电力、家庭从煤油灯改电灯、交通从马车改有轨电车。每一个新应用层打开都是一次需求扩张。

第二,应用层扩张速度快于供给扩张速度。发电厂建设需要 5-10 年,但新应用从概念到普及只要 2-3 年。这是结构性的不对称。

第三,存量需求不可逆。电气化的工厂回不去蒸汽时代,用过电灯的家庭不会回到煤油。每一次需求扩张都是永久性的。

把这三条对应到 AI 推理:

第一,AI 在打开新的应用层。医院、法律、金融、教育、客服、编程、科研——每一个垂直行业的 AI 化都是一次需求扩张。Anthropic ARR 从 2025 年 1 月的 亿300 亿(15 个月 30 倍)不是因为现有客户多用了,是因为新行业、新应用持续接入。

第二,应用层扩张速度比 HBM 产能扩张快。一个 AI 应用从想法到上线 6 个月,HBM 厂建设要 3-5 年。海力士集团董事长崔泰源 2026 年 3 月公开说「全球晶圆短缺至少持续到 2030 年」。

第三,存量需求不可逆。用过 Claude 写代码的工程师不会回到不用 AI、用过 GPT 做客户支持的公司不会撤回去用纯人工、医生用 AI 辅助诊断后不会再回到没有 AI 的诊断流程。每一次企业 AI 化都是不可逆的——这是和造船业那种暂时性需求冲击最本质的区别。

电力革命花了将近 50 年才让需求侧从增长进入饱和。AI 这件事我们才在第 4 年。

视角3:AI capex 是企业 IT 换代,不是大模型公司的赌博

但仍然有一个问题:今天的 AI capex 是大模型公司烧钱烧出来的,他们烧不下去是不是就完了?

这个反对意见 2024 是对的,但从25年开始到现在已经不太对了。

具体的演化轨迹是这样:

2023-2024 年:AI capex 主要由大模型公司(OpenAI、Anthropic、Meta、Google DeepMind)主导。这些公司大部分还没有稳定盈利,烧的是融资。这一阶段的 AI 需求确实是"金融驱动"——市场情绪反转就有可能崩。

2025-2026 年:AI capex 已经从单点烧钱扩散到企业市场。

  • Anthropic ARR $300 亿——这不是融资花的钱,是企业客户付的钱
  • Anthropic 服务超过 30 万企业客户Fortune 100 里 70%、Fortune 10 里 8 家都是 Claude 付费客户。年付 1M+ 的客户超过 1,000 家(两年前只有十几家)
  • 微软 4 月 29 日发布的 Q3 FY26 财报:AI 业务年化收入 $370 亿,同比 +123%(一个季度前还是 $130 亿)
  • 微软 2026 资本支出指引调到 $1900 亿,CNBC 报道明确写"主要因为内存价格暴涨"——hyperscaler 不是在等 HBM 降价,是在为 HBM 涨价提前 lock in capex
  • AWS、Google Cloud 的 AI 业务都在双位数百亿美元规模
  • 希捷 CEO 直接点名 agentic AI 和物理 AI 是 HDD 需求的真正驱动力

AI capex 已经不是几个大模型公司在花,是整个企业市场都在花

即使 OpenAI 明天倒闭、Anthropic 暴雷,企业市场对推理算力的需求不会蒸发——因为这些需求已经嵌入到企业的实际业务流程里了。一个律所用 Claude 做合同审查,他们用的不是「Anthropic 公司」,他们用的是「AI 推理服务」。Anthropic 倒了会有别人接,但律所不会回到纯人工审合同。

所以 AI capex 不是「大模型公司的赌博」,是「企业 IT 换代周期」。前者会随资本市场情绪波动,后者一旦开始就有自己的生命力。

回到 DRAM 周期的标准剧本。第三步——「应用层需求增长放缓、或出现替代品、或客户库存满了」——这一步在 AI 推理的需求结构里看不到触发条件。

新应用层在持续打开、企业 AI 化不可逆、存量需求只增不减。


结语:旧周期的船票,将登上新时代的客船

这次不是过去的旧周期,至少不是 1990-2020 那种意义上的周期。

上面提到的各种变量,其实都不影响底层判断:AI 推理需求曲线长期向上、整个存储栈被永久激活、企业 IT 换代不可逆。

而且即使HBM的份额被侵蚀,三家在"各类HBM补充系"产品上同样是主要供应商。HBM 路线赢了赚 80% 毛利,HBM 被分流到次一级产品也还能赚 60-70% 毛利,最差情况回到普通 DDR5 涨价周期还能赚 40% 毛利——这仍然好于 2017-2018 上一轮存储周期高点。

所以,这次不是过去那种 2-3 年涨完、库存一满就崩的短周期,而会是一个更长、更宽、更复杂的新周期。

当然,“不是旧周期”不等于“没有波动”。产能释放、分流、客户库存变化,甚至市场情绪变化,都可能带来显著影响。

*

错过20倍,我找到了AI投资的笨办法

英伟达份额大降,AI革命新阶段机会在哪?

AMD研报:10年回看,300美元贵不贵?

PayPal有4.3亿用户,为什么稳定币干不过USDC?

如果觉得有帮助请点赞转发、点击“在看”等,您的支持是我持续分享的最大动力,谢谢! 建议将本号“加为星标”。

关注我,在别人看热闹的地方,看到机会。

更多内容,访问 dayu.xyz


以上数据仅供参考,不构成任何投资建议。投资有风险,决策需谨慎。