×

HBM最新研报:AI基建的主角不再是GPU

wang wang 发表于2026-05-05 12:09:34 浏览2 评论0

抢沙发发表评论

HBM最新研报:AI基建的主角不再是GPU

一句话导读:
现在的AI每说一个词,都要把整个模型“搬”一遍。搬运比计算更费时间。所以内存(尤其是HBM)成了最抢手的资源。这个市场不像过去两三年就崩一次的存储周期,而可能像电力革命一样,持续几十年。


一、为什么推理让内存成了主角?

想象一下:你让一个700亿参数的大模型帮你写一段话。它每生成一个字(技术上叫一个token),都要做三件事:

  1. 把整个模型的所有参数(大约140GB)从内存里读出来,送到计算核心;

  2. 把这个字之前的所有对话历史(叫KV Cache)也读一遍;

  3. 最后做计算,得出下一个字。

前两步是“搬运数据”,第三步才是“计算”。

问题的关键是:搬运数据的时间,通常比计算的时间还要长。

  • 一个700亿参数的模型,模型本身就有140GB

  • 生成每个字都要重新读一遍这140GB。

  • 如果你想每秒生成30个字(流畅对话),你的内存带宽必须达到每秒4.2TB以上。

这就是为什么NVIDIA最新的H100/H200显卡,内存带宽设计在3.35~4.8 TB/s——低于这个数就会卡顿。

带宽决定速度,容量决定你能不能装下整个模型。

  • 带宽不够 → 吐字慢

  • 容量不够 → 要把模型切成几块,分到多张显卡上跑,显卡之间来回通信,又产生新瓶颈。

目前两大厂走的路不同:

  • NVIDIA:押带宽(最新Rubin R200,22 TB/s) → 适合高并发、低延迟的商用服务。

  • AMD:押容量(下一代MI455X,432 GB) → 适合一次跑超大模型(比如671B参数的开源模型)。

另外还有一个“异类”Cerebras,直接把内存焊在芯片上,容量只有44GB,但带宽高达21,000 TB/s —— 是NVIDIA的950倍。但它装不下大模型,只适合特定场景。


二、推理模型让内存更紧张了

现在的AI(比如OpenAI的o1、DeepSeek-R1、Claude的“扩展思考”)不会直接回答,而是先在后台“想很久”。

这些“想”的过程会产生大量中间内容,全部存在内存里,叫KV Cache

  • 一次128K上下文的请求,KV Cache就要占40GB

  • 如果4个人同时问,KV Cache就要160GB(超过目前任何单张显卡的显存)。

这就是为什么要搞GQA(分组查询注意力)这类优化技术,把KV Cache压缩。但现在已经压到极限了,KV Cache仍在涨。

DeepSeek自己的数据:同样一个模型,加了推理能力后,推理成本涨到5倍,速度慢3-10倍。不是计算慢了,是“想”的过程产生了太多中间状态。

即使OpenAI在GPT-5.5里把token效率提高了40%,他们依然同时锁定了Cerebras 750兆瓦和NVIDIA新一代显卡的产能。这说明:单次效率优化,根本追不上用户数和任务量爆炸式增长

结论:推理时代真正稀缺的,不是GPU算力,而是装得下数据、跑得快数据的内存。


三、HBM是什么?为什么它能赚得比台积电还猛?

3.1 内存的三种“形状”

  • DDR:平铺在主板上的长条内存(普通电脑、服务器)。

  • GDDR:游戏显卡上的内存,比DDR快但更费电。

  • HBM:AI时代的新物种——立体堆叠

HBM的做法:把8颗、12颗甚至16颗内存芯片垂直叠起来,中间用硅通孔(TSV) 技术打通电路,然后用几千条细线直接连到GPU旁边。

这样做的好处是 “接口极宽”

  • 普通的DDR5,一次传64位数据。

  • HBM3E,一次传1024位

  • HBM4,一次传2048位(是DDR5的32倍)。

加上可以同时贴8个HBM堆栈,总带宽轻松到几十TB/s。

3.2 HBM的代际更替

代次
带宽
容量
主流时间
HBM3
~819 GB/s
24 GB
2023-2024
HBM3E
>1.2 TB/s
36 GB
2024-2026
HBM4
2~3.3 TB/s
36~64 GB
2026起
HBM4E
>3 TB/s
>64 GB
2027-2028

2026年上半年的主力是HBM3E(NVIDIA B200、AMD MI355X),下半年将切换到HBM4(NVIDIA Rubin、AMD MI455X)。

3.3 为什么HBM能赚到81%的毛利率?

美光2026年Q3的毛利率指引是81%。SK海力士营业利润率72%(超过台积电的58%)。

三个原因:

  1. 客户不问价:买家就是NVIDIA、AMD、Google、AWS、Meta这几家。他们怕的不是买贵了,而是怕买不到——缺一颗HBM可能导致一个几十亿美元的数据中心延期。

  2. 供给扩张极慢:建一个内存晶圆厂要3-5年。SK海力士、三星的HBM产能已经卖到了2027年底。海力士董事长公开说“晶圆短缺至少持续到2030年”。

  3. 制造门槛极高:把12层芯片完美叠在一起,良率比普通内存低30-50%。16层更难。谁能率先量产16层,就是HBM4E时代的赢家。

SK海力士2026年Q1营业利润同比暴增405%,员工人均年终奖传闻高达47.7万美元——制造业历史上没见过这种水平。


四、HBM三国杀:海力士、三星、美光

4.1 SK海力士 – 最稳,但也最依赖NVIDIA

  • 份额:57%(营收口径)。

  • 成功原因:

    • 早进场两年,工艺数据库领先。

    • 独家MR-MUF封装技术,堆12层良率高。

    • 90%的HBM卖给NVIDIA,深度绑定。

  • 风险:万一NVIDIA被别家抢走份额,海力士跟着受伤。

4.2 三星 – 差点掉队,现在打翻身仗

  • 份额:约22%(营收口径,比特出货量高但单价低)。

  • 过去问题:HBM3E 12-Hi没通过NVIDIA认证,错过了整个Blackwell世代。

  • 转机:

    • 2026年2月率先商用HBM4,比海力士还早。

    • AMD签署战略合作,成为AMD MI455X的主供应商。

    • 形成新的阵营:AMD + 三星 对阵 NVIDIA + 海力士 + 台积电

  • 三星是唯一同时拥有内存和逻辑代工能力的企业,可以两条腿走路。

4.3 美光 – 唯一的美国玩家,享受地缘红利

  • 份额:约21%。

  • 独特优势:

    • 拿到美国CHIPS法案大量补贴。

    • 美国国防部、能源部要求本土供应链 → 只有美光能接。

    • 微软、谷歌、AWS与美国政府签的合同,也要求“本土化” → 美光受益。

  • 激进预测:HBM总市场从2025年350亿美元增长到2028年1000亿美元(相当于整个2024年DRAM市场的规模)。

关键变量:SK海力士计划2026年下半年在美股ADR上市。一旦上市,美国资金可以直接买到全球第一的HBM标的,美光目前的“唯一美股HBM股”溢价可能被稀释。


五、内存不够用,大家想了哪些“补丁”?

既然HBM这么贵、这么缺,云厂商总不能干等。他们搞了一套分层存储

  • 最热的数据(当前对话)→ 放在HBM(最快、最贵)

  • 温的数据(不太常用的上下文)→ 放在普通DRAM

  • 冷的数据(历史记录)→ 放在CXL内存或NVMe固态硬盘

这样就能减少对HBM的直接需求。

其他补丁技术:

  • CXL内存:可以扩展到上百TB,延迟稍高,但便宜很多。某些场景下推理吞吐量提升20多倍。

  • LPDDR5X / SOCAMM:原本用在手机/笔记本上,现在被搬进服务器。功耗低、体积小、价格只有HBM的1/4。Intel下一代推理GPU打算放弃HBM,纯用160GB LPDDR5X。

  • DDR5 / MRDIMM:传统服务器内存,带宽也能做到接近HBM入门款。澜起科技是这类内存接口芯片的全球龙头。

但是,几乎所有“补丁”方案,最终内存芯片还是海力士、三星、美光这三家在供应。所以他们不只赚HBM的钱,还赚补丁的钱。


六、Cerebras:“我不跟你们玩了”

有一家叫Cerebras的公司,正在准备IPO。它的思路完全不一样:

  • 不堆HBM,而是把44GB的SRAM直接埋在芯片上。

  • 芯片整块晶圆不切割(像一个大餐盘),面积是NVIDIA H100的57倍。

  • 内存带宽21 PB/s(即21,000 TB/s)。

效果:推理速度极快,延迟极低。Meta用它跑400B参数的Llama模型,每秒生成2500个token,比NVIDIA B200快2-3倍。

但缺点也很明显:

  • 44GB装不下大模型(要跑超过700亿参数的模型,得把好几片芯片连起来,速度优势就没了)。

  • 单颗芯片功耗1500W+,一套系统23kW,普通数据中心放不了。

  • 良率极低(一整片晶圆上只要有一个坏点,整片就可能报废),虽然通过设计容忍了缺陷,但实际成本不透明。

  • 客户集中:86%的收入来自阿联酋的两家实体。OpenAI、AWS、Meta签的都是大框架合同,还没真正付多少钱。

它的IPO招股书显示,如果剔除一笔一次性会计收益,实际经营亏损同比扩大247%。这是一个需要警惕的信号。

其他类似“非HBM路线”的玩家还有Groq(已被NVIDIA购买技术授权)、SambaNova、Tenstorrent等,但目前都不成气候。


七、ASIC芯片会威胁HBM吗?

ASIC就是专用芯片,比如Google的TPU、AWS的Trainium、微软的Maia、Meta的MTIA。它们都在抢NVIDIA的市场份额。

但这些ASIC同样需要HBM

  • Google TPU v7:192GB HBM3E

  • AWS Trainium 3:使用HBM3E

  • 微软Maia 200:216GB HBM3E + 272MB片上SRAM

所以ASIC越火,HBM卖得越多。客户从“只依赖NVIDIA”变成“NVIDIA + 多家云厂商”,对内存厂商反而是分散风险

至于“片上SRAM会替代HBM”的担心:SRAM是L3缓存,HBM是主存,两者是配合关系,不是替代。增加SRAM是为了减少访问HBM的次数,但不会让HBM消失。真正“零HBM”的只有Cerebras这种极端方案,产量极小。

结论:ASIC兴起是NVIDIA的威胁,但对HBM三巨头是结构性利好。


八、最核心的问题:HBM到底是周期股,还是AI基础设施?

8.1 过去30年的“悲惨剧本”

存储行业过去30年经历了至少5轮大周期,剧本几乎一样:

  1. 某个新应用(PC、互联网、手机、云、远程办公)拉动需求暴涨。

  2. 三大家疯狂扩产。

  3. 需求增长放缓,客户库存满了。

  4. 供给过剩,价格腰斩再腰斩,毛利率从50%+跌到负数。

  5. 弱者破产,行业整合,然后等待下一轮。

最近一次就在2022-2023年,三星存储业务营业亏损

8.2 这次有什么不同?

信号一:整个存储栈一起卖光

过去是轮动——DRAM紧张时,NAND可能很松;NAND紧张时,HDD可能不好卖。但现在是HBM、普通DRAM、NAND固态盘、甚至机械硬盘(HDD) 全部缺货。

机械硬盘大厂希捷的CEO说,他们的近线硬盘产能已经分配到2027年。原因是:AI推理、Agentic AI、自动驾驶产生的数据量太大,什么存储都要。

信号二:类比电力革命,而不是造船业

有人用2021-2022年的造船业周期来类比:当时集装箱船短缺,运费暴涨,船厂利润创新高,后来周期结束,一地鸡毛。

这个类比是错的。造船业的需求是一次性冲击(疫情打乱供应链),而AI的需求是不可逆的企业IT换代

  • 一个律师用AI审合同后,不会再回去纯人工。

  • 一家医院用AI辅助诊断后,不会再撤掉。

  • 一个程序员用AI写代码后,不会放弃。

每一次企业接入AI,都是永久性的需求增长。就像1880-1920年的电力革命,电力需求增长了几百倍,持续了近半个世纪。

信号三:AI capital expenditure(资本支出)已经不再是少数大模型公司在烧钱

  • Anthropic的年化ARR(年度经常性收入)从10亿美元涨到300亿美元,只用了15个月,全是企业客户付的钱。

  • 微软的AI业务年化收入370亿美元,同比增长123%。

  • 微软已经把2026年资本支出指引调到1900亿美元,主要原因就是内存价格暴涨。

即使明天OpenAI倒闭,企业对推理算力的需求也不会消失——因为AI已经嵌入到律师、医生、工程师、客服的日常工作流程里了。

8.3 结论

这次不是过去的短周期

  • 需求曲线长期向上,短期没有“增长放缓”的迹象。

  • 整个存储栈被永久激活。

  • 企业IT换代不可逆。

当然,这不代表没有波动(产能释放、客户库存变化、市场情绪都会引起价格波动),但底层结构已经变了。

而且,即使HBM被部分分流,三巨头在“补丁”产品(DDR5、LPDDR、NAND等)上同样是主要供应商。最差情况也能赚40%的毛利率,这仍然好于上一轮存储周期的高点。


九、总结:记住这三点就够了

  1. 推理时代,内存比GPU算力更稀缺。HBM凭借超宽接口和立体堆叠,成为AI算力链条上最赚钱的环节之一。

  2. HBM三巨头(海力士、三星、美光)正在打一场持久战。它们各自绑定不同阵营,工艺和良率是真正的护城河。SK海力士领先,三星靠HBM4和AMD结盟反击,美光靠美国本土身份吃地缘红利。

  3. 这次很可能不是传统存储周期。过去的故事是“暴涨→扩产→崩盘”,但AI需求由无数不可逆的企业应用驱动,整个存储栈第一次同时卖光。更像电力革命,而不是造船业泡沫。

最后的最后:市场目前给HBM三巨头的估值只有5-7倍市盈率,也就是说,投资者依然按照“周期股”在定价。如果这一次真的不再是传统周期,那么估值就可能被重估。这既是机会,也是风险