HBM最新研报:AI基建的主角不再是GPU

一句话导读：
现在的AI每说一个词，都要把整个模型“搬”一遍。搬运比计算更费时间。所以内存（尤其是HBM）成了最抢手的资源。这个市场不像过去两三年就崩一次的存储周期，而可能像电力革命一样，持续几十年。

一、为什么推理让内存成了主角？

想象一下：你让一个700亿参数的大模型帮你写一段话。它每生成一个字（技术上叫一个token），都要做三件事：

把整个模型的所有参数（大约140GB）从内存里读出来，送到计算核心；
把这个字之前的所有对话历史（叫KV Cache）也读一遍；
最后做计算，得出下一个字。

前两步是“搬运数据”，第三步才是“计算”。

问题的关键是：搬运数据的时间，通常比计算的时间还要长。

一个700亿参数的模型，模型本身就有140GB。
生成每个字都要重新读一遍这140GB。
如果你想每秒生成30个字（流畅对话），你的内存带宽必须达到每秒4.2TB以上。

这就是为什么NVIDIA最新的H100/H200显卡，内存带宽设计在3.35~4.8 TB/s——低于这个数就会卡顿。

带宽决定速度，容量决定你能不能装下整个模型。

带宽不够 → 吐字慢
容量不够 → 要把模型切成几块，分到多张显卡上跑，显卡之间来回通信，又产生新瓶颈。

目前两大厂走的路不同：

NVIDIA：押带宽（最新Rubin R200，22 TB/s） → 适合高并发、低延迟的商用服务。
AMD：押容量（下一代MI455X，432 GB） → 适合一次跑超大模型（比如671B参数的开源模型）。

另外还有一个“异类”Cerebras，直接把内存焊在芯片上，容量只有44GB，但带宽高达21,000 TB/s —— 是NVIDIA的950倍。但它装不下大模型，只适合特定场景。

二、推理模型让内存更紧张了

现在的AI（比如OpenAI的o1、DeepSeek-R1、Claude的“扩展思考”）不会直接回答，而是先在后台“想很久”。

这些“想”的过程会产生大量中间内容，全部存在内存里，叫KV Cache。

一次128K上下文的请求，KV Cache就要占40GB。
如果4个人同时问，KV Cache就要160GB（超过目前任何单张显卡的显存）。

这就是为什么要搞GQA（分组查询注意力）这类优化技术，把KV Cache压缩。但现在已经压到极限了，KV Cache仍在涨。

DeepSeek自己的数据：同样一个模型，加了推理能力后，推理成本涨到5倍，速度慢3-10倍。不是计算慢了，是“想”的过程产生了太多中间状态。

即使OpenAI在GPT-5.5里把token效率提高了40%，他们依然同时锁定了Cerebras 750兆瓦和NVIDIA新一代显卡的产能。这说明：单次效率优化，根本追不上用户数和任务量爆炸式增长。

结论：推理时代真正稀缺的，不是GPU算力，而是装得下数据、跑得快数据的内存。

三、HBM是什么？为什么它能赚得比台积电还猛？

3.1 内存的三种“形状”

DDR：平铺在主板上的长条内存（普通电脑、服务器）。
GDDR：游戏显卡上的内存，比DDR快但更费电。
HBM：AI时代的新物种——立体堆叠。

HBM的做法：把8颗、12颗甚至16颗内存芯片垂直叠起来，中间用硅通孔（TSV） 技术打通电路，然后用几千条细线直接连到GPU旁边。

这样做的好处是 “接口极宽”：

普通的DDR5，一次传64位数据。
HBM3E，一次传1024位。
HBM4，一次传2048位（是DDR5的32倍）。

加上可以同时贴8个HBM堆栈，总带宽轻松到几十TB/s。

3.2 HBM的代际更替

代次	带宽	容量	主流时间
HBM3	~819 GB/s	24 GB	2023-2024
HBM3E	>1.2 TB/s	36 GB	2024-2026
HBM4	2~3.3 TB/s	36~64 GB	2026起
HBM4E	>3 TB/s	>64 GB	2027-2028

2026年上半年的主力是HBM3E（NVIDIA B200、AMD MI355X），下半年将切换到HBM4（NVIDIA Rubin、AMD MI455X）。

3.3 为什么HBM能赚到81%的毛利率？

美光2026年Q3的毛利率指引是81%。SK海力士营业利润率72%（超过台积电的58%）。

三个原因：

客户不问价：买家就是NVIDIA、AMD、Google、AWS、Meta这几家。他们怕的不是买贵了，而是怕买不到——缺一颗HBM可能导致一个几十亿美元的数据中心延期。
供给扩张极慢：建一个内存晶圆厂要3-5年。SK海力士、三星的HBM产能已经卖到了2027年底。海力士董事长公开说“晶圆短缺至少持续到2030年”。
制造门槛极高：把12层芯片完美叠在一起，良率比普通内存低30-50%。16层更难。谁能率先量产16层，就是HBM4E时代的赢家。

SK海力士2026年Q1营业利润同比暴增405%，员工人均年终奖传闻高达47.7万美元——制造业历史上没见过这种水平。

四、HBM三国杀：海力士、三星、美光

4.1 SK海力士 – 最稳，但也最依赖NVIDIA

份额：57%（营收口径）。
成功原因：

早进场两年，工艺数据库领先。
独家MR-MUF封装技术，堆12层良率高。
90%的HBM卖给NVIDIA，深度绑定。

风险：万一NVIDIA被别家抢走份额，海力士跟着受伤。

4.2 三星 – 差点掉队，现在打翻身仗

份额：约22%（营收口径，比特出货量高但单价低）。
过去问题：HBM3E 12-Hi没通过NVIDIA认证，错过了整个Blackwell世代。
转机：

2026年2月率先商用HBM4，比海力士还早。
与AMD签署战略合作，成为AMD MI455X的主供应商。
形成新的阵营：AMD + 三星 对阵 NVIDIA + 海力士 + 台积电。

三星是唯一同时拥有内存和逻辑代工能力的企业，可以两条腿走路。

4.3 美光 – 唯一的美国玩家，享受地缘红利

份额：约21%。
独特优势：

拿到美国CHIPS法案大量补贴。
美国国防部、能源部要求本土供应链 → 只有美光能接。
微软、谷歌、AWS与美国政府签的合同，也要求“本土化” → 美光受益。

激进预测：HBM总市场从2025年350亿美元增长到2028年1000亿美元（相当于整个2024年DRAM市场的规模）。

关键变量：SK海力士计划2026年下半年在美股ADR上市。一旦上市，美国资金可以直接买到全球第一的HBM标的，美光目前的“唯一美股HBM股”溢价可能被稀释。

五、内存不够用，大家想了哪些“补丁”？

既然HBM这么贵、这么缺，云厂商总不能干等。他们搞了一套分层存储：

最热的数据（当前对话）→ 放在HBM（最快、最贵）
温的数据（不太常用的上下文）→ 放在普通DRAM
冷的数据（历史记录）→ 放在CXL内存或NVMe固态硬盘

这样就能减少对HBM的直接需求。

其他补丁技术：

CXL内存：可以扩展到上百TB，延迟稍高，但便宜很多。某些场景下推理吞吐量提升20多倍。
LPDDR5X / SOCAMM：原本用在手机/笔记本上，现在被搬进服务器。功耗低、体积小、价格只有HBM的1/4。Intel下一代推理GPU打算放弃HBM，纯用160GB LPDDR5X。
DDR5 / MRDIMM：传统服务器内存，带宽也能做到接近HBM入门款。澜起科技是这类内存接口芯片的全球龙头。

但是，几乎所有“补丁”方案，最终内存芯片还是海力士、三星、美光这三家在供应。所以他们不只赚HBM的钱，还赚补丁的钱。

六、Cerebras：“我不跟你们玩了”

有一家叫Cerebras的公司，正在准备IPO。它的思路完全不一样：

不堆HBM，而是把44GB的SRAM直接埋在芯片上。
芯片整块晶圆不切割（像一个大餐盘），面积是NVIDIA H100的57倍。
内存带宽21 PB/s（即21,000 TB/s）。

效果：推理速度极快，延迟极低。Meta用它跑400B参数的Llama模型，每秒生成2500个token，比NVIDIA B200快2-3倍。

但缺点也很明显：

44GB装不下大模型（要跑超过700亿参数的模型，得把好几片芯片连起来，速度优势就没了）。
单颗芯片功耗1500W+，一套系统23kW，普通数据中心放不了。
良率极低（一整片晶圆上只要有一个坏点，整片就可能报废），虽然通过设计容忍了缺陷，但实际成本不透明。
客户集中：86%的收入来自阿联酋的两家实体。OpenAI、AWS、Meta签的都是大框架合同，还没真正付多少钱。

它的IPO招股书显示，如果剔除一笔一次性会计收益，实际经营亏损同比扩大247%。这是一个需要警惕的信号。

其他类似“非HBM路线”的玩家还有Groq（已被NVIDIA购买技术授权）、SambaNova、Tenstorrent等，但目前都不成气候。

七、ASIC芯片会威胁HBM吗？

ASIC就是专用芯片，比如Google的TPU、AWS的Trainium、微软的Maia、Meta的MTIA。它们都在抢NVIDIA的市场份额。

但这些ASIC同样需要HBM：

Google TPU v7：192GB HBM3E
AWS Trainium 3：使用HBM3E
微软Maia 200：216GB HBM3E + 272MB片上SRAM

所以ASIC越火，HBM卖得越多。客户从“只依赖NVIDIA”变成“NVIDIA + 多家云厂商”，对内存厂商反而是分散风险。

至于“片上SRAM会替代HBM”的担心：SRAM是L3缓存，HBM是主存，两者是配合关系，不是替代。增加SRAM是为了减少访问HBM的次数，但不会让HBM消失。真正“零HBM”的只有Cerebras这种极端方案，产量极小。

结论：ASIC兴起是NVIDIA的威胁，但对HBM三巨头是结构性利好。

八、最核心的问题：HBM到底是周期股，还是AI基础设施？

8.1 过去30年的“悲惨剧本”

存储行业过去30年经历了至少5轮大周期，剧本几乎一样：

某个新应用（PC、互联网、手机、云、远程办公）拉动需求暴涨。
三大家疯狂扩产。
需求增长放缓，客户库存满了。
供给过剩，价格腰斩再腰斩，毛利率从50%+跌到负数。
弱者破产，行业整合，然后等待下一轮。

最近一次就在2022-2023年，三星存储业务营业亏损。

8.2 这次有什么不同？

信号一：整个存储栈一起卖光

过去是轮动——DRAM紧张时，NAND可能很松；NAND紧张时，HDD可能不好卖。但现在是HBM、普通DRAM、NAND固态盘、甚至机械硬盘（HDD） 全部缺货。

机械硬盘大厂希捷的CEO说，他们的近线硬盘产能已经分配到2027年。原因是：AI推理、Agentic AI、自动驾驶产生的数据量太大，什么存储都要。

信号二：类比电力革命，而不是造船业

有人用2021-2022年的造船业周期来类比：当时集装箱船短缺，运费暴涨，船厂利润创新高，后来周期结束，一地鸡毛。

这个类比是错的。造船业的需求是一次性冲击（疫情打乱供应链），而AI的需求是不可逆的企业IT换代：

一个律师用AI审合同后，不会再回去纯人工。
一家医院用AI辅助诊断后，不会再撤掉。
一个程序员用AI写代码后，不会放弃。

每一次企业接入AI，都是永久性的需求增长。就像1880-1920年的电力革命，电力需求增长了几百倍，持续了近半个世纪。

信号三：AI capital expenditure（资本支出）已经不再是少数大模型公司在烧钱

Anthropic的年化ARR（年度经常性收入）从10亿美元涨到300亿美元，只用了15个月，全是企业客户付的钱。
微软的AI业务年化收入370亿美元，同比增长123%。
微软已经把2026年资本支出指引调到1900亿美元，主要原因就是内存价格暴涨。

即使明天OpenAI倒闭，企业对推理算力的需求也不会消失——因为AI已经嵌入到律师、医生、工程师、客服的日常工作流程里了。

8.3 结论

这次不是过去的短周期。

需求曲线长期向上，短期没有“增长放缓”的迹象。
整个存储栈被永久激活。
企业IT换代不可逆。

当然，这不代表没有波动（产能释放、客户库存变化、市场情绪都会引起价格波动），但底层结构已经变了。

而且，即使HBM被部分分流，三巨头在“补丁”产品（DDR5、LPDDR、NAND等）上同样是主要供应商。最差情况也能赚40%的毛利率，这仍然好于上一轮存储周期的高点。

九、总结：记住这三点就够了

推理时代，内存比GPU算力更稀缺。HBM凭借超宽接口和立体堆叠，成为AI算力链条上最赚钱的环节之一。
HBM三巨头（海力士、三星、美光）正在打一场持久战。它们各自绑定不同阵营，工艺和良率是真正的护城河。SK海力士领先，三星靠HBM4和AMD结盟反击，美光靠美国本土身份吃地缘红利。
这次很可能不是传统存储周期。过去的故事是“暴涨→扩产→崩盘”，但AI需求由无数不可逆的企业应用驱动，整个存储栈第一次同时卖光。更像电力革命，而不是造船业泡沫。

最后的最后：市场目前给HBM三巨头的估值只有5-7倍市盈率，也就是说，投资者依然按照“周期股”在定价。如果这一次真的不再是传统周期，那么估值就可能被重估。这既是机会，也是风险

ZBlogIt

Nice to meet you, too!