HBM全景研报:从训练到推理,主角不再是GPU

《 雨、蒸气与速度——大西部铁路（威廉·透纳）》

在AI推理大爆炸的新阶段，GPU 仍然稀缺和紧张，但是装得下数据、跑得快数据的内存才会是新的主角。

今天接着上篇英伟达份额大降，AI革命新阶段机会在哪？详细讲讲HBM，当前HBM热度持续爆炸，而同时，众多为缓解HBM紧张的分层缓解方案和TPU等架构级替代尝试也在路上。

市场对于存储最核心的关切是：存储到底是周期性产业，还是AI基础设施？

如果是前者，鼓声将会和过去一样消失；如果是后者，那将是完全不同的未来。

这不是判断题，而是数学题，本文将试图从逻辑与事实的角度来剖析。

这是本人《AI投资地图》第12篇，全文历数数天，历经N稿，各种精简，仍有1.8万字，建议先转发收藏。推荐将本号“设为星标”。

一、推理为什么让内存成为主角？

大模型推理时，每生成一个 token 要做三件事：

把整个模型的所有参数从内存读一遍，送到计算核心；
把这个 token 之前所有 token 的中间状态（叫 KV Cache）也读一遍；
然后做矩阵乘法，算出下一个 token。

第三步是计算，前两步是搬运。

搬运的总耗时通常超过计算的总耗时

这个事实几乎适用于所有 100 亿参数以上的模型。

一个 700 亿参数的开源模型（Llama 3 70B），FP16 精度下模型权重约 140 GB。生成每个 token，都要把这 140 GB 从 HBM 读到 GPU 计算核心。要保证流畅生成 token——比如每秒 30 个，HBM 到计算核心之间的带宽必须能支撑每秒约 4.2 TB 的搬运量。这就是为什么 H100 SXM5 的 HBM 带宽设在 3.35 TB/s——低于这个数字，70B 模型推理就开始卡。

带宽是一回事，容量是另一回事。如果一个模型的总参数量超过单 GPU 的 HBM 容量，就必须把模型切成多份分散到多个 GPU 上跑，这叫张量并行。但模型一切，原本一次能算完的事变成多次，GPU 之间需要相互通信传中间结果——通信开销是新的瓶颈。

所以容量和带宽都重要，但侧重不同。

容量决定：模型能不能装在单卡上？要不要切分？切了之后通信开销有多大？带宽决定：装下了之后，吐出 token 的速度有多快？延迟有多低？

在应对推理的需求上，NVIDIA和AMD走上了不同的路：

NVIDIA 最新旗舰 Rubin R200，单 GPU 配 288 GB HBM4，内存带宽 22 TB/s； AMD 下一代 MI455X，单 GPU 配 432 GB HBM4，内存带宽 19.6 TB/s。

AMD 容量多 50%，带宽反而少 11%。

NVIDIA 押带宽——把数据搬运得更快。 AMD 押容量——让模型本体不必拆开放。

两家的目标客户群侧重不同：AMD 瞄准要跑 405B、671B 这种超大模型的开源派；NVIDIA 瞄准要做高并发低延迟商用推理的 SaaS 派。

而最近在走IPO的新玩家Cerebras WSE-3，单芯片只有 44 GB 片上 SRAM，但内存带宽高达 21 PB/s——是 NVIDIA Rubin 的 950 倍。容量小 7 倍换来带宽多三个数量级。Cerebras 的判断和 NVIDIA、AMD 又不一样。

2、推理让两个瓶颈同时变得更紧张

推理模型——OpenAI o 系列、DeepSeek-R1、Anthropic Claude 的 extended thinking——回答前会先在后台"想很久"。这些"想"产生的中间状态全部存在内存里，存的形式叫 KV Cache。每多一轮思考、每多一段长上下文（比如让模型读 100 页 PDF），KV Cache 就增加一些。

具体多大？单个 128K 上下文的请求，KV Cache 占用约 40 GB；4 个并发 128K 请求，KV Cache 就要 160 GB——超过 H100 的 80 GB 显存，也超过 H200 的 141 GB。

等于是硬件上出现了瓶颈，就这么大，但上下文用户需求肯定是越长越好——短了AI记不住你前面说的，怎么办？于是发明了GQA（Grouped-Query Attention），就是为了控制 KV Cache 。没有 GQA，长上下文推理几乎不可行。而这条工程优化已经被推到极限了，但 KV Cache 还在涨。

DeepSeek 自己的 V3 vs R1 数据是直接对照——同样的基座模型，加上 reasoning 后，推理成本约 5 倍、速度慢 3-10 倍。这个差距很大一部分来自 KV Cache 的累积——不是计算变慢了，是 reasoning 让模型每次回答前要展开几千甚至几万个思考 token，KV Cache 的占用因此线性放大。

目前大模型也在这方面不断优化，“硬件不够省着点用”，比如OpenAI 4月发布GPT-5.5，用比 GPT-5.4 少约 40% 的 token 达到更高的智能水平——OpenAI 在 token 效率上做了第二代优化。但GPT-5.5 单 token 价格涨了一倍，OpenAI 用价格弹性吸收了效率提升；而Anthropic Opus 4.7 反方向走，token 用量最高增加 35-40%。

两个最先进的大模型也在走相反的路，表面上看好像说不准谁是对的，但是OpenAI 自己同时在签 Cerebras 750 MW + 锁 Vera Rubin 第一批 1 GW，说明它的真实判断是：单次推理效率优化抵不过用户量 / 任务量 / 模型规模增长的总和。

推理时代真正稀缺的资源不是 GPU 算力，是装得下数据、跑得快数据的内存。谁拿出更大、更快、更便宜的内存方案，谁就拿到推理时代的真正定价权。

二、HBM 为什么赚这么猛？

要理解这一波内存厂商为什么这么赚钱，先要把 HBM 这件事讲清楚。

1、HBM是什么？

电脑里的内存按物理结构分三类。DDR——平铺在主板上的内存条，办公电脑、服务器都在用。GDDR——游戏显卡上的内存，比 DDR 快但功耗高。HBM——AI 时代的产物，结构和前两者根本不一样。

DDR 和 GDDR 都是平面的：一颗一颗内存芯片放在 PCB 板上，通过 PCB 走线连到 CPU/GPU。这种结构的物理瓶颈是 PCB 走线密度——板子上能挤多少根线就能并行传多少数据。

HBM 是立体的。具体做法：把 8 颗、12 颗、甚至 16 颗 DRAM 芯片垂直堆叠；中间用 TSV（Through-Silicon Via，硅通孔）技术——直接在硅片上钻洞——把每一层电路上下贯通；这一整摞放在一块硅基中介层（interposer）上，通过几千条物理走线和 GPU 芯片直接连起来。

这个结构的关键参数是"接口宽度"。普通 DDR5 模块/通道 64-bit，GDDR7 单颗约 32 bit。HBM3E 单堆栈的接口宽度是 1024 bit，HBM4 翻倍到 2048 bit。

也就是说同一个时钟周期内，HBM4 能传的数据是 DDR5 的 32 倍。再加上一颗 GPU 旁边贴 8 个 HBM4 堆栈并联，整体带宽轻松到几十 TB/s。NVIDIA Rubin R200 的 22 TB/s 内存带宽就是这么来的：8 个 HBM4 堆栈，每个堆栈接近 3 TB/s，并联在一起。

HBM 的代际演进：

代次	单堆栈带宽	单堆栈容量	接口宽度	主流时间
HBM3	~819 GB/s	24 GB	1024-bit	2023-2024
HBM3E	>1.2 TB/s	36 GB	1024-bit	2024-2026
HBM4	2.0-3.3 TB/s	36-64 GB	2048-bit	2026 起
HBM4E	>3.0 TB/s	>64 GB	2048-bit+	2027-2028

NVIDIA Blackwell B200（192 GB HBM3E）和 AMD MI355X（288 GB HBM3E）是 2026 年第一季度的当下主力。Rubin R200 和 AMD MI455X 都跳到 HBM4——是 2026 年下半年的主战场。

2、HBM4 改变了玩法

2025-2026 年发生了产业级变化：HBM4 的工艺被转移到了先进逻辑代工厂。

HBM 这一摞内存最底下那一层不是 DRAM 内存，是一颗专门负责'调度'的基础控制芯片（ base die）——把 GPU 来的请求路由到上面 12 层 DRAM 里的具体某一层、做错误检查、管供电时钟。

这一层在 HBM3 及以前是 HBM 厂自己用 DRAM 工艺造的，HBM4 变了——改用台积电 12nm/3nm 或三星 4nm 这种先进逻辑工艺制造，可以集成内存控制器、ECC、电源管理、甚至客户定制的轻量级计算单元。SK 海力士选择台积电 12nm，美光也找台积电，只有三星能用自家 4nm 在公司内部完成全链条。

这件事把价值链从"内存厂垂直整合"扩展到"内存厂 + 逻辑代工 + 客户三方协作"。台积电因此拿到了一个新的杠杆——通过控制基础芯片代工产能，影响 HBM 的上市时间和分配。Marvell、博通、Alchip 这种 ASIC 设计公司也拿到了新业务——给 HBM4 设计客户专用的基础芯片逻辑。

3、HBM拉动存储毛利率干到 81% ？

美光 FY26 Q3（2026 年 3-5 月）的指引是营收 335 亿美元、毛利率约 81%。这个毛利率在 DRAM 行业过去 25 年里几乎没出现过——周期高峰期最高也就 50% 多，现在直接 81%。SK 海力士 Q1 2026 的整体营业利润率到 72%——超过台积电的 58% 和美光的 48%（Q1 2026 口径）。

原因有三层。

客户要货不问价。HBM 的买家就是 NVIDIA、AMD、Google、AWS、Meta、Cerebras 这几家。这些买家有 GPU 卖不掉的恐惧，但绝对不能容忍 HBM 短缺导致整个 AI 集群停摆。需求是高度刚性的——卡 1 美元 HBM 可能让一个数十亿美元的 GPU 集群延期上线。在这种结构下买家几乎没有议价权。SK 海力士在 2026 年 4 月的财报电话会议上原话是："客户优先级是确保供应，不是价格"。

供给侧扩张慢。HBM 产能扩张要新建晶圆厂，从动工到投产 3-5 年。三星 P5 厂 2028 年投产，SK 海力士 M15X 厂 2027 年中投产。这意味着未来 18 个月全球 HBM 供应基本就是现在三家加上小幅扩张——价格只能往上走。SK 海力士 2026 全年和美光 2026 全年的 HBM 产能都已经签约售罄。SK 海力士集团董事长崔泰源在 2026 年 3 月公开表示，全球晶圆短缺至少持续到 2030 年——即使大规模扩产能，产能扩张周期也要 4-5 年。

制造门槛高。HBM 是 3D 堆叠 + TSV，每多堆一层良率乘上一个折扣。12-Hi 堆叠的整体良率比单颗 DRAM 低 30-50%。同样的产能投入，HBM 的有效产出比普通 DDR5 少很多。更难的是 16-Hi 堆叠。HBM4 既支持 12-Hi 也支持 16-Hi，HBM4E 时代要全部转向 16-Hi。SK 海力士 2025 年底展示了 16-Hi 样品，但工艺还没成熟——谁能率先量产 16-Hi 是 HBM4E 时代的胜负手。

SK 海力士 Q1 2026 营收 52.58 万亿韩元（约 360 亿美元），营业利润 37.61 万亿韩元，营业利润同比 +405%。一份韩国媒体报道说海力士 2026 年员工人均年终奖金预计达到 47.7 万美元——这种员工分红水平在制造业历史上没有前例——从一个侧面反映出 HBM 业务利润的真实水平。

三、HBM 的群雄争霸

按 Counterpoint Research 的口径，HBM 三家在过去 5 个季度里的份额变化是这样的：

季度	SK 海力士	三星	美光
2024 Q4（营收）	51%	40%	9%
2025 Q1（营收）	~64%	13%	~21%
2025 Q2（营收）	62%	17%	21%
2025 Q3（按比特币货算）	53%	35%	11%
2025 Q3（按营收算）	57%	22%	21%
2025 Q4（营收，估算）	57%	~22%	~21%
2026 Q1（营收，估算）	57%	~22%	~21%

*注：比特出货是出卖了多少GB。HBM 行业两种统计份额方式——一种是按"出货了多少 GB"算（也叫"比特出货量"），另一种是按"卖了多少钱"算（营收）。两者放一起看能看出谁在卖高端货、谁在用低价抢量。

2025 Q3 的两个口径——比特出货量和营收差很多。三星比特份额反弹到 35%，但营收份额只有 22%。这是因为三星出货的 HBM 单价低（HBM3E 12-Hi 没拿到 NVIDIA Blackwell 主供，主要供 AMD MI350X/MI355X），量大但价低。

三家在 HBM 这个市场里走的是完全不同的路线，各自绑着不同的客户、各自押在不同的技术节点。

1、SK 海力士的位置最稳，但也最被动

4 月 23 日 SK 海力士发布的 Q1 2026 财报：单季营收 52.58 万亿韩元（首次破 50 万亿）、营业利润 37.61 万亿韩元（同比 +405%）、净利润 40.35 万亿韩元、营业利润率 72%——这是 DRAM 行业历史上从来没出现过的水平。HBM 价格同比涨 50%。

SK 海力士的 HBM 营收份额稳定在 57%——领先地位短期内不会变。它做对了三件事。

第一，早进场两年。2013 年 SK 海力士和当时的 AMD 一起把第一代 HBM 推上市，比三星早进入这个市场两年。这两年的工艺数据库积累，到 2024 年 ChatGPT 算力爆发的时候正好是良率拉开差距的时刻。

第二，MR-MUF 工艺——海力士独有的内存堆叠封装方法，在堆叠 12 层 HBM 时能更好地散热和保持结构稳定。三星和美光在追赶但还没完全跟上。

第三，和 NVIDIA 深度绑定——海力士 HBM 业务约 90% 卖给 NVIDIA。从 H100、H200、B200 到刚发布的 Rubin R200，主供都是海力士。

这种绑定是双向的。海力士的 HBM 路线图被 NVIDIA 的产品节奏绑住了——NVIDIA 推迟，海力士的产能就闲下来；NVIDIA 加速，海力士就要跟着扩产。这种结构在 2024-2026 年的上行周期里是好事，但在下行周期里会反过来变成单一客户依赖的风险。

2、三星差点彻底掉队，现在打翻盘战。

三星历史上是 DRAM 老大，2025 年被海力士追上。（2025 Q3 份额 33%、海力士 34%、美光 26%）。但偏偏在最赚钱的 HBM 这一块，它在 2024-2025 年掉到了第三。

掉队的原因有两条：

一是 NVIDIA 对三星 HBM3E 12-Hi 的认证测试反复没过——产业里的说法是"每次质检都过不去"。这意味着三星错过了整个 Blackwell 这一代旗舰。

二是工艺路线选择上，三星之前用的工艺节点比海力士落后一代，到 HBM4 才换成新的"6th gen 10nm-class"（1c 工艺）+ 4nm 逻辑基底。

2026 年这件事在反转。三星在 2026 年 2 月率先把商用 HBM4 出货——比海力士早。三星 HBM4 速率达到 11.7 Gbps，超过 JEDEC 标准的 8 Gbps 约 46%。三星 CEO 在 2026 年初的新年讲话里原话是："在 HBM4 上，客户开始说 Samsung is back"。更关键的是 2026 年 3 月签的 AMD-Samsung MoU。这份谅解备忘录有三层内容：三星成为 AMD MI455X 的 HBM4 主供应商；三星给 AMD 第六代 EPYC（Venice）CPU 提供 DDR5 内存；讨论"foundry 合作的可能性"——意味着三星可能也代工 AMD 的部分 logic 芯片。

三是目前 AMD 所有的高端芯片（GPU + CPU）都在台积电流片，如果未来有部分订单转到三星 foundry，那 AMD 就形成了一条独立于"NVIDIA-海力士-台积电"的平行供应链——三星给 HBM、三星给 DDR5、三星可能给部分 foundry。

这件事的产业含义是 HBM4/5/6 时代会出现两条平行联盟：NVIDIA-海力士-台积电 vs AMD-三星。

两条联盟有自己的工艺节奏、客户绑定、产能配额。这种联盟之间的竞争，比 GPU 层面的 NVIDIA vs AMD 更深、更慢、也更结构性。

3、美光是三家里唯一的美国公司

美光的份额最低（11-21% 区间，看口径），但它有两件别人没有的资产：地理位置和地缘溢价。美国 CHIPS 法案的补贴大量流向美光（爱达荷州 Boise 厂、纽约 Clay 厂）。美国国防部、能源部要求 AI 训练设施使用美国本土供应的关键组件。Microsoft、Google、AWS 在和军方/政府客户签的合同里都开始要求"供应链本土化比例"——这部分订单只有美光能拿。

更具体的是 2025 年下半年的财务表现。美光 FY26 的几个季度数字：

季度	营收	YoY	毛利率
FY26 Q1（2025/9-11）	$136 亿	+57%	~57%
FY26 Q2（2025/12-2026/2）	$239 亿	+196%	~75%
FY26 Q3 指引（2026/3-5）	$335 亿	-	~81%

Q2 的 196% 同比增长背后，主要不是售价涨价，是产能开足马力 + HBM 占比上升。Q3 指引 81% 毛利率是真正的关键数字——半导体存储行业历史上 50% 毛利率就算超级周期顶部。

美光自己对 HBM 市场的判断比所有人都激进：HBM TAM 从 2025 年 350 亿美元增长到 2028 年 1000 亿美元。这个 1000 亿美元约等于 2024 年整个全球 DRAM 市场的总规模——意思是 HBM 一个细分品类，三年内体量要追平整个 DRAM 行业。

美光当前（26年5月1日）股价 $517，市值约 5906 亿美元。过去 12 个月股价涨幅近6倍。Forward PE（按 Q3 指引年化） 5-7 倍区间。

4、SK 海力士 ADR 上市可能改写"美光独家可买性"

几件事同时在发生。

第一，IBKR 等全球券商的 KRX 接入正在变得更顺畅。韩国监管层 2024-2026 年做了一系列"投资便利化改革"，简化了外国散户直接买韩股的流程。很多散户投资者通过 IBKR 现在可以直接买 SK 海力士（代码 000660.KS）和三星（005930.KS），不再需要专门开韩国本地账户。

第二，更关键的是 SK 海力士已经向美国 SEC 秘密递交 F-1（2026 年 3 月 24 日），目标在 2026 年下半年完成 ADR 上市，计划融资 96-144 亿美元、发行 2-3% 股权。承销商正在排期，路演时间预计 6-7 月。这是一些散户第一次能在美股直接买到 HBM 全球第一的纯标的。

这两件事很重要：

海力士 vs 美光的估值差距非常大——这是 ADR 上市最大的看点。SK 海力士当前 Forward PE 约 4-6 倍（不同来源不一），美光约 7-10 倍。海力士最近一季营业利润率 72%、HBM 全球份额 57%；美光最近一季毛利 81%、HBM 份额约 21%。海力士各项基本面都更强，但因为"韩国折价"（公司治理 + 指数权重低 + 地缘风险）估值反而是美光的 1/2。这正是海力士愿意花大价钱去美国上市的核心动机——用 ADR 上市来拉平估值差距。

这件事对美光是一个反方向风险。美光当前估值里包含一部分"美国唯一上市的 HBM 标的"溢价。一旦海力士 ADR 上市，将可能带来美股主动/被动资金关注。后续如果纳入标普 500，则被动指数基金（标普 500 候选、SOX 半导体指数候选）会被强制买入海力士，美光的"独家上市溢价"会被稀释。

5、HBM "焊接缝"——一个被忽略的设备战场

HBM 这种 12 层、16 层堆起来的内存，层与层之间的连接靠什么？这是一个工程上极难、商业上又极挣钱的问题。当下行业里有三种主流方法：

"回流焊"：把所有焊点像放进烤箱一样一次性熔化连起来，速度快、成本低，但焊点距离不能太近。
"热压焊"（TCB）：一颗一颗芯片加热加压焊，精度更高，但慢。
"混合键合"（hybrid bonding）：铜对铜直接接触，连焊点都不需要，精度最高、成本最贵，是终极方案。

三种方法对应的战场不一样。NVIDIA GPU 旁边贴 HBM 的那一道（就是台积电 CoWoS 封装的核心步骤），用的是"回流焊"。HBM 内部一层一层堆起来的那个动作，主流用的是"热压焊"。AMD 给 CPU 加缓存的 X3D 技术、Intel 下一代 3D 芯片，用的是"混合键合"。

三家 HBM 厂在这件事上分裂得厉害。

SK 海力士走的是自己独家的 MR-MUF 工艺——基于回流焊改良的，12 层堆叠良率全行业最高，这是它能拿下 NVIDIA 90% 份额的真正护城河。三星和美光走的是 TC-NCF（热压焊）。

到了 HBM4 这一代，路线进一步分化：SK 海力士能用 MR-MUF 就继续用；三星直接押注混合键合（它内部叫 HCB），但据 SemiAnalysis 报道目前良率只有约 10%，而盈亏平衡需要 60% 以上；美光继续 TC-NCF。混合键合什么时候真的成为 HBM 主流？最新的判断是大约 2028 年，因为2025 年JEDEC（半导体行业的国际标准组织）在新一代 HBM 标准里放宽了封装高度限制，这意味着 SK 海力士的 MR-MUF 工艺至少还能再用一代。三星之前押注新工艺以期弯道超车，这一手让它的新工艺投入回收期被拉长。

设备供应商这一层也正在剧烈洗牌。SK 海力士原本只用韩国公司 Hanmi 的热压焊设备（独家），2024 年底起新加坡/香港的 ASMPT 切入、目前在 SK 海力士的 TCB 设备装机量里已经占到约一半。Hanmi 因此和另一家叫 Hanwha 的韩国公司爆发了专利诉讼战，2024/12 Hanmi 先告 Hanwha，2025 年 Hanwha 反诉。Hanmi 在 SK 海力士的份额预计 2026 年会从 100% 跌到 20-30%。三星用自家 SEMES 的设备做内部循环。美光最关键的变化——HBM4 全面转向荷兰的 BESI（原因：HBM4 精度要求更高、加上地缘考虑——美光是 NVIDIA 的关键供应商，不愿用总部在亚洲的 ASMPT）。

另外。长鑫（CXMT）在 HBM3 级别已经国内 AI 芯片厂商交付样品，2026 年量产目标。短期看，长鑫存储即便优先满足国内 AI 芯片客户，也会削弱三星、海力士、美光在中国可获得市场里的潜在需求，尤其是过去对华 HBM 曝露更高的三星。但在 NVIDIA、AMD、Google、AWS、Meta 这些海外高端认证市场里，长鑫短期还很难直接替代三大厂。真正的变量在今年下半年及以后：如果长鑫 HBM3/HBM3E 良率、封装、客户认证稳定下来，它会成为全球 HBM 周期下行和估值压缩的重要变量。

美国 2024 年底已经把 HBM2 及以上 HBM 纳入对华出口管制；所以长鑫进入 HBM，不只是“抢市场”，也是在填补被管制切开的本土供给缺口。

四、芯片厂的联盟与部落

前面有提到AMD 和英伟达都在造自己的大内存算力，但他们自己不造内存，于是联盟与部落就这样形成了。

AMD 只做芯片设计，不做制造，也不做内存。它的高端 GPU 卡造出来分五步：

AMD 设计 GPU 核心和 chiplet 布局——MI455X 用 CDNA 5 架构，3200 亿晶体管，12 个 chiplet
台积电制造 GPU chiplet——MI455X 的 GCD（Graphics Compute Die）用 TSMC N2，MCD（Memory Controller Die）用 TSMC N3P
三星和美光制造 HBM——MI350X/MI355X 的 288 GB HBM3E 由三星和美光双供；MI455X 的 432 GB HBM4 由三星主供（2026 年 3 月 MoU 确认）
台积电做 CoWoS 封装——把 GPU chiplet 和 HBM 封装到同一块硅基中介层上
测试 + 整机集成 + 出厂

一颗 MI455X 完成品里，AMD 自己只负责"设计 IP"和"销售"。GPU 制造是台积电的，HBM 是三星/美光的，封装也是台积电的。AMD 在自己的旗舰 AI GPU 里直接控制的物料成本占比不到 30%。

NVIDIA 的逻辑完全一样。NVIDIA H100/H200/B200/R200 全是 fabless 模式：GPU 由台积电制造，HBM 主供 SK 海力士（Vera Rubin 加上美光、三星各一部分），封装是台积电 CoWoS-L。

理解了这一点之后，联盟与部落的格局就清晰了。

NVIDIA 这一侧是一个稳定的联盟：

角色	公司	内容
GPU 设计 + 软件	NVIDIA	CUDA 软件栈 + NVLink 6 互连
HBM 主供	SK 海力士	海力士 HBM 业务约 90% 卖给 NVIDIA
制造 + 封装	台积电	GPU 流片（N3） + CoWoS-L 封装

这个联盟稳定了至少 5 年。每代 GPU 升级都是三方协同。外部新玩家很难插入这个三角，因为任何一方调整都需要其他两方配合。

AMD 这一侧的格局正在 2025-2026 年从”散兵游勇”变成“为了部落”：

角色	公司	内容
GPU 设计 + 软件	AMD	ROCm 软件栈 + UALink 开放互连
HBM 主供	三星（HBM4）	三星之前没拿到 NVIDIA 单子，集中全力供 AMD
DDR5（CPU 内存）	三星	给 AMD Venice CPU 配 DDR5
制造 + 封装	台积电（主） + 三星 foundry（部分）	MI455X 仍在台积电流片，但 MoU 暗示部分订单可能转到三星

注意第四条的"部分转向三星"——目前还没有明确公告，只是 MoU 里讨论的可能性。但这件事如果发生，AMD 就形成了一条完全独立于 NVIDIA-海力士-台积电三角的平行供应链。

这件事的市场冲击在 2025 年 10 月到 2026 年 4 月之间被反复验证——头部客户对 AMD 的下注规模大到出乎市场预期。

OpenAI：6 GW（2025/10）。OpenAI 锁定 6 GW AMD GPU，每颗 MI450/MI455X 都对应 432 GB HBM4。AMD 给了 OpenAI 一个最多 1.6 亿股的认股权证（约占 AMD 10%、行权价 0.01 美元），OpenAI 拿股权换长期采购。

Meta：6 GW（2026/2）。Meta 5 年期锁定 6 GW，首批 1 GW 部署从 2026 H2 开始。同样是 warrant + 长协的结构。

xAI：AMD 的 Helios rack 客户名单里也有 xAI（Register 报道）。

云厂商已经认识到，未来 3 年的瓶颈不是 GPU 设计，是 GPU 旁边那几块内存的产能。它们用长期合同 + 股权 warrant 的方式把整条供应链一起锁住——其中最关键的就是 HBM 配额。

五、HBM 之外—— 新创新想绕过

既然 HBM 这么短缺，云厂商怎么就这样硬等？有没有别的办法把推理的内存瓶颈解决掉？

当然，大家都在想办法。

KV Cache 已经超过模型权重本身，成为推理的内存主体，于是在这个层面大家都在优化。Llama 3.1 70B 在 128K 上下文 + 4 个并发的场景下，KV Cache 占用 160 GB——超过 H100 80 GB 显存的两倍。云厂商的应对不是"等 HBM"，而是把 KV Cache 分层放到不同速度、不同价格的内存里：

最热的活跃 token KV → GPU 上的 HBM（几十纳秒延迟、几 TB/s 带宽）
温热的 KV → CPU 上的主机 DRAM（约 100 ns 延迟、几百 GB/s 带宽）
冷的 KV → CXL Memory 或本地 NVMe SSD（几百纳秒到几十微秒延迟、几十 GB/s 带宽）
持久化的 KV / 模型权重 → 远端存储或 NVMe-oF

这条分层架构已经在生产环境跑起来了。阿里云的 PolarKVCache 和腾讯云 FlexKV 显著降低了 TTFT、提升吞吐，并把 KV Cache 从 GPU HBM 扩展到 CPU DRAM、本地 SSD 或远端存储。

Google GKE 的 tiered KV cache 走同一条路：HBM 是最热层，节点本地存储当次热层，目标是尽量提高 HBM 命中率，把最贵的一层用在最贵的数据上。

云厂商真正的推理基础设施不是 GPU + HBM，是一整套异构内存子系统。HBM 只是其中最贵、最稀缺、最热的一层，但下面三层的产能扩张相对没那么紧张，而且对应的是几条独立的投资线。

第一条：CXL Memory（Compute Express Link 内存）

CXL 是基于 PCIe 5.0 的内存互连协议，允许 GPU/CPU 共享一个跨设备的大容量内存池。字节跳动的实测数据（基于 Astera Labs A1000 CXL 内存扩展器）是这样的：CXL 本地延迟 251 ns（对比本地 DRAM 97 ns），带宽 48 GB/s（对比本地 DRAM 70.8 GB/s）。延迟比 DRAM 高 2.6 倍，带宽低 32%——但容量可以扩展到 100 TB+ 级别。

学术研究显示在 KV Cache 场景下，Llama 推理的 batch size 可以从单纯 DRAM 配置扩大 1.14-2.11 倍，decode 阶段吞吐量平均提升 42%。XConn 和 MemVerge 演示的方案声称在长上下文场景下能实现 21.9 倍吞吐量提升。

Astera Labs 的 Leo 系列 CXL 智能内存控制器是当前最成熟的商用方案，已在 Microsoft Azure M-series 上量产部署。Astera 同时是 NVIDIA Hopper、HGX、NVL72 平台的 PCIe 重定时器主力供应商，并参与下一代 NVLink Fusion 生态。

第二条：LPDDR5X 和 SOCAMM/SOCAMM2 模块

LPDDR5X 原本是手机和笔记本上的低功耗内存，但 NVIDIA Grace CPU 用了 480 GB LPDDR5X，带宽 500 GB/s——把它从消费电子拉回了数据中心。JEDEC 推出的 SOCAMM（Small Outline CAMM）标准专为 AI 服务器设计，功耗比传统 RDIMM 低 55%、体积小 2/3。SK 海力士 2026 年 4 月开始量产 192 GB SOCAMM2 模组，基于 1c 工艺。

LPDDR5X 在数据中心的应用案例很具体。Intel 的下一代推理专用 GPU "Crescent Island"——预计 2026 年下半年客户采样——明确放弃 HBM，转用 160 GB LPDDR5X。Intel 的判断是：在 token-as-a-service 场景下，容量优先于带宽，LPDDR5X 配 160 GB 容量比 HBM 配 80 GB 在某些工作负载里更划算——LPDDR5X 每 GB 价格只有 HBM 的 1/4。NVIDIA 在 Vera Rubin 平台里加了一颗 Rubin CPX，用 GDDR7 替代 HBM 处理 prefill 阶段——同样是承认"HBM 不是万能解"。

第三条：DDR5 RDIMM 和 MRDIMM 内存接口芯片

服务器主流 CPU 内存。Intel Granite Rapids 支持 MRDIMM-8800，双路系统带宽达 880 GB/s——已经接近 HBM 入门款的水平。这条线的核心受益方是澜起科技——RCD 内存接口芯片全球龙头，DDR5 第三代 RCD 已大规模量产、订单排到 2027 年 Q4。

在 HBM 紧缺的窗口期，补 HBM 短板的"第二条线"自己就构成了一个 200+ 亿美元的投资市场。HBM 三家拿走最大蛋糕，但 Astera Labs、SK 海力士的 SOCAMM、Micron 的 LPDDR、澜起的 RCD，这些被忽视的"补 HBM"角色每一家都有自己的成长曲线。

六、Cerebras——把内存焊到芯片上的另一条路

主流内存战的格局：NVIDIA 和 AMD 都在用同一种方式解决内存问题——更大、更快的 HBM 贴在 GPU 旁边，然后市场还在用 CXL/DDR/SSD 分层补短板。

但还有一家公司从一开始就拒绝走这二条路。它的判断是——HBM 旁路这件事根本不该存在。最优解是把内存焊在芯片本体里。

这家公司叫 Cerebras Systems。2026 年 4 月 17 日刚刚提交 IPO 申请。

6.1 Cerebras 在做什么

核心产品叫 WSE-3（Wafer-Scale Engine 3）。物理参数：

整块芯片用一整片 12 寸晶圆做成——面积 46，225 平方毫米，约一个晚餐盘大小
比 NVIDIA H100 大 57 倍（也常被引用为"比 B200 大 58 倍"，数字差异源于参照系不同——H100 单 die 是 814 mm²，B200 是双 die 拼接、单 die 约 800 mm²）
4 万亿晶体管，90 万个 AI 核心
内存是 44 GB SRAM（不是 HBM），全部嵌在芯片本体上
内存带宽 21 PB/s（21，000 TB/s）
制造工艺：台积电 N5

NVIDIA 和 AMD 的做法是把许多 ~800 平方毫米的小芯片用 NVLink、CoWoS、HBM 连起来组成 AI 集群。Cerebras 的做法是——别切了，直接做一整块。

两条路线代表两种哲学。NVIDIA / AMD 路径：用许多小芯片 + 复杂的互连和封装技术。优点是每颗芯片良率有保证、可以分批生产、客户可以按需配置；缺点是芯片之间的通信成为瓶颈、HBM 跨片访问还是需要时间、CoWoS 封装容量限制了集群规模。Cerebras 路径：用一整片晶圆做一颗芯片，把内存全部内置。优点是内存到计算核心几乎零延迟（21 PB/s 内存带宽就是这么来的）、芯片内部不需要外部互连、功耗效率更高；缺点是良率挑战巨大、产能扩张难、散热和供电极其复杂（一颗 1500W+ 的"芯片"需要全新的物理形态）。

回到推理这件事——在 NVIDIA GPU 上模型权重要走 HBM-CoWoS-Cache-计算核心几层物理路径才能到位；在 Cerebras 上模型权重直接就在计算核心隔壁——基本不需要搬运。这就是为什么它的内存带宽能到 21 PB/s，比 NVIDIA Rubin 高近 1000 倍。

但有几个重要限制：容量限制：WSE-3 单片只有 44 GB 片上 SRAM，装不下 70B 以上的模型（全精度）。要跑 405B、671B 这种大模型，Cerebras 要把模型切成多片，跨片通信仍然是瓶颈，速度优势会下降。

功耗极高：单颗 WSE-3 约 1500W+，整套 CS-3 系统约 23 kW——是普通数据中心机柜功耗的 5-10 倍，部署 Cerebras 必须找特殊改造的数据中心。

良率：晶圆级芯片按经典缺陷分布的泊松定律，理论良率为零。Cerebras 通过把单核缩到 0.05 mm²（只有 H100 SM 核心 6.2 mm² 的 1%）实现了 164 倍的缺陷容忍度——硅利用率约 93%。但 IPO 招股书没披露"实际多少比例的核心被屏蔽"——这是评估其真实生产成本的关键数据空白。

6.2 客户清单很广

OpenAI（2026/1 签 750 MW 协议、合同价值超 200 亿美元、附带 OpenAI 给 Cerebras 的 10 亿美元低息贷款） AWS（2026/3 签约、AWS 首次将 Cerebras 晶圆级推理芯片整合进 Amazon Bedrock，与 Trainium 形成 prefill/decode 分离架构） Meta（2025/4 起合作 Llama API、Llama 4 Maverick 400B 模型在 WSE-3 上跑达到 2，500+ tokens/sec/user） IBM、Mistral、Cognition、AlphaSense、Notion——AI 应用层 GSK、AstraZeneca——制药行业（GSK 2020 年起就在用 CS-1 做基因组学研究） Mayo Clinic——医疗诊断 美国能源部、美国国防部——政府客户 TotalEnergies——能源（法国 1000 亿美元市值公司） ZS Associates——咨询行业 MAX.AI 平台

Meta 选 Cerebras 给 Llama API 做推理后端，是 Cerebras 商业模式的一个真正背书——Meta 自己是 Cerebras 创始团队的部分早期人才来源（SeaMicro 后来被 AMD 收的），Meta 对底层硬件的判断比一般客户更专业。Meta 选 Cerebras 不是为了押注未来，是为了今天的推理速度——Llama 4 Maverick 在 Cerebras 上比 NVIDIA Blackwell B200 快 2-3 倍。

但是，2025 年的实际收入分布仍然高度集中在 UAE 两家实体：MBZUAI（穆罕默德·本·扎耶德人工智能大学）占 62%，G42 占 24%——合计 86%。这是 Cerebras 估值的最大悬念——客户名单看起来很豪华，但实际付钱的还是阿布扎比的两家关联实体。OpenAI、AWS、Meta 这些合同要等到 2026-2028 年才会陆续确认收入。

6.3 财务真相——一个会计陷阱

Cerebras 招股书上的数字看起来很漂亮：

2025 年营收 5.10 亿美元（+76% YoY）
2025 年 GAAP 净利润 $237.8M（2024 年还是亏损 $481.6M）
履约义务总额（RPO）$246 亿美元（主要是 OpenAI 合同）

但这个"GAAP 转正"故事有一个致命的细节。

2024 年 Cerebras 和 G42 签了一份预付远期股权合同，这份合同被记入"远期合同负债"$401M。2025 年这笔合同被 CFIUS 国家安全审查，最终被重组——重组的会计后果是这笔负债被一次性移出资产负债表，产生了 $363.3M 的一次性非现金会计收益。

把这笔一次性收益剔除，再加上 $49.8M 股权激励（SBC），Cerebras 2025 年实际非 GAAP 净亏损 $75.7M——比 2024 年的非 GAAP 亏损 $21.8M 恶化了 247%。

也就是说，Cerebras 实际的经营层面比 2024 年更差，不是更好。"GAAP 扭亏为盈"完全是会计处理的产物，不是经营改善。

这件事在产业新闻里被反复忽略，但所有专业读者都应该注意到。**用 GAAP 数字判断 Cerebras 有问题的。

剔除 G42 一次性收益后的真实情况是：研发费用占营收 48%、营业亏损 10M、资本支出 13.4 亿，但 2026 年要建设 OpenAI 750 MW 部署所需的数据中心，现金消耗速度可能加快。IPO 募资 ~20-30 亿美元对它执行业务计划至关重要。

6.4 非 HBM 路线的其他玩家

Cerebras 的"非 HBM 路线"不是它一家在走。还有几个值得知道的玩家。

Groq——和 Cerebras 同样押"片上 SRAM > HBM"的路线，但路径不同。Groq 的 LPU 用 500 MB SRAM（WSE-3 的 1/88），靠 96 个 112 Gbps 芯片间链路把许多 LPU 连起来跑大模型。Llama 2 70B 推理速度达到 ~300 tokens/sec（对比 H100 30-40 tokens/sec），但跑 70B 模型需要 576 个 LPU 协调——成本据报道是同等吞吐 H100 部署的 40 倍。NVIDIA 在 2025 年 12 月以约 200 亿美元的代价拿到 GROK非独家技术授权 + 核心团队加入 NVIDIA——是 NVIDIA 32 年来最大单笔交易，表明 NVIDIA 自己也承认 GPU + HBM 单一架构覆盖不了所有推理场景。Groq 3 LPX 已被整合进 NVIDIA Vera Rubin 平台，作为延迟敏感场景的辅助加速器。

SambaNova——三层内存架构（SRAM + HBM + DDR），试图覆盖更广的工作负载。SN40L 单 rack 支持 5 万亿参数。但 SambaNova 在 2025 年裁员、战略重心转向推理服务。Intel 据报道考虑以 16 亿美元收购。

Tenstorrent——RISC-V 架构 + GDDR6，主打高性价比和开源生态。由 Jim Keller 领导（芯片业老将，曾在 AMD/Apple/Tesla），已获得现代汽车和三星的战略投资，下一代芯片用三星 foundry 制造。

把这几家放在一起看，Cerebras 不是孤立的"晶圆级怪胎"，而是"非 HBM 推理芯片"光谱里最成功的一家。这条光谱的共同主题是——在某些推理场景里（超低延迟、小到中等模型规模、对成本不敏感），片上 SRAM 比 HBM 是更好的解。但所有这些公司面对同样的天花板：CUDA 生态护城河、SRAM 容量限制、客户多元化挑战、TSMC 产能争夺。

最值得注意的产业信号是——Google TPU 8i 把片上 SRAM 增加到 384 MB（前代 3 倍）、Microsoft Maia 200 配 272 MB SRAM（HBM3E 由 SK 海力士独家供应）。两家产业级 ASIC 设计者都在加大片上 SRAM。这是产业默认承认 Cerebras 哲学有道理的反向印证——只是没人走 44 GB 那么极端，但 200-400 MB 这个量级正在变成 ASIC 推理芯片的新标配。

6.5 有趣角度：方案优化后的很多东西还是这三家

除了片上 SRAM 之外，几乎所有"补 HBM 短板"的方案最后还是这三家在供。SOCAMM2 是 SK 海力士做的、LPDDR5X 三家都在做、HBF 是 SK 海力士和 Sandisk 主导的、DDR5/MRDIMM 是三家共有的市场。这就是为什么 HBM 三家在 2026 年的财报里出现整体毛利率拉升——不只是 HBM 一个品类涨价，是整个产品组合都在涨。

三星是这条产业链上唯一一个同时跨内存厂和逻辑代工厂的玩家。即使工艺路线发生剧变，三星都能拿到一块——这就是为什么三星 2026 年敢押 HBM4 + foundry + DDR5 三条线同时投入，它有别人没有的对冲。

七、ASIC 赛道——对 HBM 三家有何影响？

讲完 GPU 主线和 Cerebras 异类，第三条赛道是 ASIC——专用集成电路。代表是 Google TPU、AWS Trainium、Microsoft Maia、Meta MTIA。

这条赛道挑战的是NVDIA的位置，但对HBM也有较大影响。

当前，ASIC赛道在 2026 年发生了重大变化。Anthropic 一边与 AWS 锁定最多 5GW Trainium 算力，一边与 Google/Broadcom 签下多 GW 下一代 TPU 供应安排；同时，Google 对 Anthropic 的投资承诺最高可达 400 亿美元。这些交易说明 ASIC 阵营已经从“实验性自研”进入“GW 级部署”。

ASIC 兴起对 NVIDIA 的影响清晰——份额会被切走，从 80%+ 滑到 50-60% 区间。但对 HBM 三家来说，这件事的影响要分两层看。

7.1 第一层：ASIC 阵营本身大量使用 HBM

ASIC	HBM 配置
Google TPU v7（Ironwood）	192 GB HBM3E、7.4 TB/s
Google TPU v8t（训练用）	HBM4，2027 下半年
Google TPU v8i（推理用）	HBM4 + 384 MB 片上 SRAM
AWS Trainium 2	96 GB HBM3
AWS Trainium 3	HBM3E（产能向 SK 海力士采购）
Microsoft Maia 200	216 GB HBM3E + 272 MB SRAM
Meta MTIA 2	128 GB HBM3E

所以一个事实非常清楚——ASIC 阵营的所有玩家都是 HBM 三家的客户。Anthropic 100 万颗 TPU v7 的订单，对应 192 万颗 HBM3E（Google 自然要从三家买）；AWS 5 GW Trainium，对应至少 100 万颗 HBM；Microsoft 5 GW Maia 200，同样的量级。

ASIC 阵营每多签一个 GW，HBM 三家就多一份订单。

具体到三家的客户结构：

海力士：原本绑定 NVIDIA（90% HBM 给 NVIDIA），HBM4 时代会拓展到 Google TPU、AWS Trainium 3
三星：HBM4 主供 AMD MI455X，同时是 Google Tensor、AWS Graviton 等多个非 NVIDIA 客户的内存供应商
美光：原本份额最小，但因为美国本土供应链溢价，在 AWS Trainium、Microsoft Maia 上的份额持续上升

ASIC 兴起从客户结构上反而是三家的利好——把"被 NVIDIA 单一客户卡脖子"的风险分散了。

7.2 第二层：片上 SRAM 路线是不是在替代 HBM？

这是关于 ASIC 路线最大的担心——Google TPU 8i 加 384 MB 片上 SRAM、Microsoft Maia 200 加 272 MB 片上 SRAM、Cerebras WSE-3 极端到 44 GB 片上 SRAM。这条路是不是在替代 HBM？

对三家是负面的部分：片上 SRAM 是台积电（或三星 foundry）流片时一并做出来的，不是三家做的内存。每多一颗 SRAM-rich ASIC，台积电多赚一笔 SRAM 流片费，三家少卖一些 HBM。价值确实在从内存厂转移到逻辑代工厂。

但实际影响远比看起来小：

片上 SRAM 是 L3 缓存级别，HBM 是主存级别——两者不是替代关系，是配合关系。TPU 8i 384 MB SRAM 配 192 GB HBM4（推测）；Maia 200 272 MB SRAM 配 216 GB HBM3E。SRAM 增加不减少 HBM，反而因为 ASIC 算力变强，需要的 HBM 总量更多。
真正"完全不用 HBM"的极端方案只有 Cerebras（44 GB SRAM、零 HBM）。但 Cerebras 受限于晶圆级产能，5 年内绝对量都很有限。
从 ASIC 总数量看，HBM 总需求是上升的。即使每颗 ASIC 配的 HBM 比 NVIDIA GPU 少 30-50%，但 ASIC 总出货量是 NVIDIA GPU 的 2-3 倍——HBM 总需求净增加。

所以片上 SRAM 路线对三家的影响是"价值链略有转移，但绝对量级上升"——是慢侵蚀，不是替代。

7.3 ASIC 兴起对三家是结构性利好

ASIC 兴起对英伟达是真威胁，对 HBM 三家是结构性利好。

客户结构：从"NVIDIA 一家独大"分散到"NVIDIA + Google + AWS + Microsoft + Meta + Anthropic"——议价权对三家更有利
总需求：ASIC 阵营每签一个 GW，HBM 总需求增加一份订单
份额转移风险：片上 SRAM 是慢侵蚀，5 年内不动摇 HBM 主存地位
价值链分布：少量价值（约 5-10%）转移到台积电（SRAM 流片），但 HBM 主存这块大头还在三家

NVIDIA 份额 ASIC 抢走一部分、ASIC 互相竞争、Cerebras 走极端路线——所有这些情景下，HBM 三家都是受益方。

八、HBM三家利润会超过英伟达？

把整条推理产业链拆完之后，回头看最有意思的现象是：这条链上最赚钱的环节不是设计 AI 芯片的人，是给 AI 芯片配内存的人。

HBM 三家可能赚得比英伟达还多？

NVIDIA FY26 营收约 $216B，GAAP 净利润约 $120B，当前市值约 $4.85T。

SK Hynix、Samsung DS、Micron 在 2026 年内存超级周期下，合计利润达到或超过 $150B 是有可能的。

三家当前合计净利润已经接近英伟达单家。但市值相差仍大，因三星半导体没有单独上市，但如果参照另外2家给一个平均的业务估值，并把三家相家，目前市值差不多是2-2.5万亿，也就是三家合计差不多英伟达的40-50%。

未来三家合计利润超过英伟达也不算太惊奇，主要得益于几个点：

一是HBM 工艺门槛不亚于 GPU

HBM 的物理制造与封装良率门槛，已经高到不亚于先进逻辑芯片；而且它不是“设计一颗芯片”，而是把 12–16 层 DRAM 稳定、低功耗、高良率地堆起来。

GPU 的真正门槛在三件事——架构设计（CUDA + 软件栈 + NVLink）、流片制造（台积电先进工艺）、生态系统（开发者 + 库 + 框架）。其中英伟达自己掌握的是架构和生态，制造这一块靠台积电。

HBM 的门槛在四件事——DRAM 工艺、3D 堆叠 + TSV、MR-MUF / hybrid bonding 等封装工艺、客户协同设计。这四件事三家自己掌握。

把工艺难度横向比一下：

GPU 是平面单层晶圆，HBM 是 12-16 层垂直堆叠
GPU 良率挑战在晶体管密度，HBM 良率挑战在堆叠 + TSV + 焊接 + 封装四个维度同时
GPU 架构突破靠英伟达自己设计，HBM 架构突破靠三家与客户共同设计基础芯片
三星几次卡在 HBM3E 12-Hi 的 NVIDIA 资格认证上——这就是工程难度的直接证据

HBM 物理制造的难度确实和 GPU 相比并不显得低。这也是为什么这个市场只有 3 家玩家加 1 个追赶者，而 GPU 市场有 10+ 家玩家。

二是HBM 是"基础供给"，GPU 是"单一架构"

这一层比工艺门槛更关键。

GPU 市场是英伟达 vs AMD vs Trainium vs TPU vs Maia vs MTIA vs Cerebras vs Groq vs 华为昇腾——至少 10+ 玩家在竞争同一份算力订单。未来 5 年英伟达在 AI 加速器上的份额大概率会从 80%+ 下降到 50-60% 区间——不是因为英伟达做得不好，是因为云厂商不愿意把命运绑在一家身上，所有 hyperscaler 都在自研 ASIC。

但 HBM 不一样。所有这些 GPU、ASIC、TPU、Trainium、Maia、MTIA 都需要 HBM——除了 Cerebras 走片上 SRAM 那条极端路径（占比很小）。

所以 HBM 三家的真正护城河不是"在 HBM 内部独占份额"，是"无论谁赢算力之战，HBM 三家都拿到一笔"。

GPU 厂家之间的份额转移会让英伟达的利润被分摊，但不会让 HBM 三家的总订单减少。HBM 是 AI 算力赛道的基础供给，GPU 是赛道里互相竞争的单一架构。前者比后者更接近"卖铲子"的位置。

把工艺门槛 + 行业结构合起来看，5 年内三家合计净利润超过英伟达单家的概率不低。

三是HBM 在产业链上的议价权会超过GPU

NVIDIA 一颗 GPU 的物料成本里，HBM 占大约 30-40%。AMD MI455X 的物料成本里 HBM 占比可能更高（因为它配 432 GB HBM4，比 NVIDIA 多）。HBM 三家拿走的利润占整条链的比例，正在追上 GPU 设计公司本身。

GPU可以扩产——TSMC 多开几条 3nm/2nm 产线，NVIDIA 和 AMD 可以快速增加 GPU 出货。但 HBM 的产能扩张要新建晶圆厂，3-5 年。所以未来6-12 个月，HBM 是整条链上议价权最强的环节。

关注存储，主要关注三件事

第一是 HBM TAM 的真实增长速度。美光的 350 亿到 1000 亿（2025-2028）是个非常激进的预测。如果 reasoning 模型 + Agent + 长上下文这三件事真的让 HBM 需求曲线一直陡峭，这个数字会兑现；如果其中任何一件出现退潮（比如 Google 在 2026 年发布的某种压缩技术让单 token HBM 消耗下降），数字会打折。

第二是 产能扩充的速度。HBM 是 DRAM 的一个分支，DRAM 历史上每 3-4 年一个周期。三星 P5 厂 2028 投产、海力士 M15X 厂 2027 投产、美光 Boise/Clay 厂 2026-2027 陆续上线，2028-2029 年 HBM 产能会涌出来一大波。

第三是 晶圆级 + ASIC + 端侧推理的份额抢夺。Google TPU 8i + Microsoft Maia 200 加大片上 SRAM、Cerebras 把内存全焊到芯片本体上、NVIDIA Rubin CPX 用 GDDR7、Intel Crescent Island 用 LPDDR5X——这些都在试图减少对 HBM 的依赖。如果这些方案被市场广泛接受，HBM TAM 增长会放慢。

总体来说，存储体现典型的不对称风险结构——5-7 倍 PE 已经按周期会回归定价，如果周期不成立则估值可能会被重估。

接下来进入最核心的问题，HBM三家到底是不是周期股？

九、HBM 是周期股还是 AI 基础设施？

这是本篇的核心问题：到底是周期股，还是基础设施？

如前所说，三家很赚钱，但市场没有给到和英伟达接近的PE。市场只是在定价一件事：HBM 是 DRAM 的一个分支，DRAM 是教科书级周期性行业。

这次会不一样吗？

1、过去 30 年存储行业的"标准剧本"

存储行业过去 30 年至少经历了 5 轮明确的周期，每一轮的剧本几乎一样。

1995-1996 年：PC 普及推动 DRAM 需求暴涨，20+ 家厂商扩产。1996 年价格腰斩，日本 DRAM 厂开始退出。

2000-2001 年：互联网泡沫推高需求预期，三家加速扩产。泡沫破灭后 DRAM 价格一年跌 80%。1999 年 NEC 和 Hitachi 合并 DRAM 业务成立尔必达（Elpida），三菱 DRAM 业务在 2003 年被并入。

2007-2008 年：Vista + 服务器需求驱动扩产，金融危机砸下来。DRAM 价格 18 个月跌 90%。奇梦达（Qimonda）2009 年破产，尔必达 2012 年破产被美光收购——这一轮把 DRAM 行业从 5-6 家压缩到现在的 3 家寡头。

2018-2019 年：云厂商集中采购推高价格、三家扩产；2018 年云厂商库存够了 + 中国长鑫引发供给焦虑，2018 Q3 到 2019 Q4 大约 18 个月 DRAM 合约价跌幅约 50%。三星 DRAM 营业利润率从 60%+ 跌到 30%。

2022-2023 年：疫情期间居家办公推高 PC、手机出货 → DRAM 价格涨；2022 年宏观下行 + 客户库存高 + 三家继续扩产 → 价格 18 个月跌 70%。三星 2023 年存储业务营业亏损——这才不到三年前的事。

这 5 轮周期合起来看，DRAM 周期有标准剧本：

某个新应用驱动需求暴涨（PC、互联网、智能手机、云、远程办公）
三家厂商被高利润吸引，加速扩产
应用层需求增长放缓、或出现替代品、或客户库存满了
供给追上需求，价格腰斩、毛利率从 50%+ 跌到个位数甚至负数

周期的本质是「需求侧增长会停下来，但供给侧扩产惯性还在」——这是过去 30 年所有 DRAM 周期的共同结构。

理解了这个结构，"这次会不会一样"就压缩成一个具体问题：AI 推理对内存的需求，会像过去那 5 次的应用驱动一样，最终增长放缓吗？

2、三个重要视角

视角1：30 年没出现过的信号：整个存储栈一起卖光

2026 年最反常的地方，不是 HBM 缺货，而是整个存储栈同时紧张：HBM 紧，DRAM 紧，NAND 紧，nearline HDD 也紧。希捷近线硬盘产能大部分已经分配到 2027 年；美光则明确说，数据中心 DRAM 和 NAND 的需求都受到供给不足限制。

过去存储周期常常是单品类轮动，这一次更像是 AI 把热数据、温数据、冷数据、持久化数据全部同时点燃。

希捷 Q3 FY26 财报会议上，CEO Dave Mosley 原话是「近线 HDD 产能几乎全部预分配到 2027 年」，毛利率 47% non-GAAP——这是 HDD 行业历史上从来没出现过的水平。同时点，SK 海力士 Q1 2026 营业利润率达到 72%；美光 FY26 Q3 公司整体毛利率指引约 81%。这不是“HBM 单品毛利率 81%”，而是 AI 内存短缺把整家公司利润率抬到了半导体史上罕见的高位。同一时期，NVIDIA FY26 Q4 毛利率约 75%，台积电 Q1 2026 毛利率 66.2%、营业利润率 58.1%。不同会计口径不能机械横比，但可以说明一件事：AI 内存公司的利润率已经不再像传统 DRAM 周期里那样只是“短暂修复”，而是进入了极端紧张的利润窗口。

过去那 5 轮存储周期，都是单品类轮动——某一个细分先紧、其他松。1995 年是 DRAM 紧、HDD 稳；2007-2008 年是 DRAM 暴涨然后暴跌、NAND 走自己的节奏；2018 年是 DRAM 紧、NAND 已经开始走弱；2022 年是 NAND 紧、DRAM 开始去库存。从来没有过整个存储栈一起卖光的状态。

为什么过去是轮动？因为传统的存储需求是分层错峰的——服务器换代驱动 DRAM、手机换代驱动 NAND、企业归档驱动 HDD。这些需求曲线互不重叠，所以历史上的周期是某一个品类涨另一个品类跌。三家公司的毛利率从来没有同时超过 60%。

但 AI 推理是唯一一种同时拉爆所有存储层级的需求：

HBM 装活跃 token（最热）
DDR / SOCAMM 装温热 KV Cache
NVMe SSD 装冷的历史上下文
HDD 装持久化的训练数据 + agentic AI 中间产物

希捷 CEO 在电话会上明确指出，AI 推理、agentic AI、物理 AI（自动驾驶 / 机器人）正在放大数据创造。希捷自己的估算是单辆自动驾驶汽车每小时可以产生约 4 TB 数据。OpenAI Sora 视频生成、特斯拉 Optimus 机器人训练、agentic AI 任务中产生的工具调用日志——所有这些数据都不会消失，都需要被存下来，都需要在被需要的时候被读出来。

「整个存储栈一起卖光」这件事在过去 30 年的存储周期史里没有先例，它本身就是结构性变化的硬证据。

视角2：类比电力革命比造船业更准确

我看到很多媒体会用造船业 2021-2022 年那一波做外部类比——产能严重短缺、订单排满 5-7 年、单船价格创历史新高、行业利润率超过 30%，最后周期下来了。这个类比看起来很贴，但其实是错的。

造船业那一波本质上是全球贸易的一次性需求冲击——疫情打乱供应链 + 集装箱短缺。需求侧的逻辑是：消费者居家时间多、电商爆发、海运量暴涨。这个需求侧有自然回归的力——疫情结束、消费回归、电商常态化，需求曲线就回到原来的位置。所以造船业周期 2024 年下来了。

AI 推理的需求侧不是这种结构。更准确的类比是 1880-1920 年的电力革命。

那 40 年里，电力需求增长了几百倍。期间发电设备制造商（GE 的前身）、铜线制造商、变压器制造商利润都很高，一直高了将近半个世纪，没有"周期回归"。

为什么？

第一，电力本身打开了新的应用层。工厂从蒸汽改电力、家庭从煤油灯改电灯、交通从马车改有轨电车。每一个新应用层打开都是一次需求扩张。

第二，应用层扩张速度快于供给扩张速度。发电厂建设需要 5-10 年，但新应用从概念到普及只要 2-3 年。这是结构性的不对称。

第三，存量需求不可逆。电气化的工厂回不去蒸汽时代，用过电灯的家庭不会回到煤油。每一次需求扩张都是永久性的。

把这三条对应到 AI 推理：

第一，AI 在打开新的应用层。医院、法律、金融、教育、客服、编程、科研——每一个垂直行业的 AI 化都是一次需求扩张。Anthropic ARR 从 2025 年 1 月的 300 亿（15 个月 30 倍）不是因为现有客户多用了，是因为新行业、新应用持续接入。

第二，应用层扩张速度比 HBM 产能扩张快。一个 AI 应用从想法到上线 6 个月，HBM 厂建设要 3-5 年。海力士集团董事长崔泰源 2026 年 3 月公开说「全球晶圆短缺至少持续到 2030 年」。

第三，存量需求不可逆。用过 Claude 写代码的工程师不会回到不用 AI、用过 GPT 做客户支持的公司不会撤回去用纯人工、医生用 AI 辅助诊断后不会再回到没有 AI 的诊断流程。每一次企业 AI 化都是不可逆的——这是和造船业那种暂时性需求冲击最本质的区别。

电力革命花了将近 50 年才让需求侧从增长进入饱和。AI 这件事我们才在第 4 年。

视角3：AI capex 是企业 IT 换代，不是大模型公司的赌博

但仍然有一个问题：今天的 AI capex 是大模型公司烧钱烧出来的，他们烧不下去是不是就完了？。

这个反对意见 2024 是对的，但从25年开始到现在已经不太对了。

具体的演化轨迹是这样：

2023-2024 年：AI capex 主要由大模型公司（OpenAI、Anthropic、Meta、Google DeepMind）主导。这些公司大部分还没有稳定盈利，烧的是融资。这一阶段的 AI 需求确实是"金融驱动"——市场情绪反转就有可能崩。

2025-2026 年：AI capex 已经从单点烧钱扩散到企业市场。

Anthropic ARR $300 亿——这不是融资花的钱，是企业客户付的钱
Anthropic 服务超过 30 万企业客户，Fortune 100 里 70%、Fortune 10 里 8 家都是 Claude 付费客户。年付 1M+ 的客户超过 1,000 家（两年前只有十几家）
微软 4 月 29 日发布的 Q3 FY26 财报：AI 业务年化收入 $370 亿，同比 +123%（一个季度前还是 $130 亿）
微软 2026 资本支出指引调到 $1900 亿，CNBC 报道明确写"主要因为内存价格暴涨"——hyperscaler 不是在等 HBM 降价，是在为 HBM 涨价提前 lock in capex
AWS、Google Cloud 的 AI 业务都在双位数百亿美元规模
希捷 CEO 直接点名 agentic AI 和物理 AI 是 HDD 需求的真正驱动力

AI capex 已经不是几个大模型公司在花，是整个企业市场都在花。

即使 OpenAI 明天倒闭、Anthropic 暴雷，企业市场对推理算力的需求不会蒸发——因为这些需求已经嵌入到企业的实际业务流程里了。一个律所用 Claude 做合同审查，他们用的不是「Anthropic 公司」，他们用的是「AI 推理服务」。Anthropic 倒了会有别人接，但律所不会回到纯人工审合同。

所以 AI capex 不是「大模型公司的赌博」，是「企业 IT 换代周期」。前者会随资本市场情绪波动，后者一旦开始就有自己的生命力。

回到 DRAM 周期的标准剧本。第三步——「应用层需求增长放缓、或出现替代品、或客户库存满了」——这一步在 AI 推理的需求结构里看不到触发条件。

新应用层在持续打开、企业 AI 化不可逆、存量需求只增不减。

结语：旧周期的船票，将登上新时代的客船

这次不是过去的旧周期，至少不是 1990-2020 那种意义上的周期。

上面提到的各种变量，其实都不影响底层判断：AI 推理需求曲线长期向上、整个存储栈被永久激活、企业 IT 换代不可逆。

而且即使HBM的份额被侵蚀，三家在"各类HBM补充系"产品上同样是主要供应商。HBM 路线赢了赚 80% 毛利，HBM 被分流到次一级产品也还能赚 60-70% 毛利，最差情况回到普通 DDR5 涨价周期还能赚 40% 毛利——这仍然好于 2017-2018 上一轮存储周期高点。

所以，这次不是过去那种 2-3 年涨完、库存一满就崩的短周期，而会是一个更长、更宽、更复杂的新周期。

当然，“不是旧周期”不等于“没有波动”。产能释放、分流、客户库存变化，甚至市场情绪变化，都可能带来显著影响。

错过20倍，我找到了AI投资的笨办法

英伟达份额大降，AI革命新阶段机会在哪？

AMD研报：10年回看，300美元贵不贵？

PayPal有4.3亿用户，为什么稳定币干不过USDC？

如果觉得有帮助请点赞转发、点击“在看”等，您的支持是我持续分享的最大动力，谢谢！ 建议将本号“加为星标”。

关注我，在别人看热闹的地方，看到机会。
更多内容，访问 dayu.xyz

以上数据仅供参考，不构成任何投资建议。投资有风险，决策需谨慎。

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Nice to meet you, too!