一句话导读:
现在的AI每说一个词,都要把整个模型“搬”一遍。搬运比计算更费时间。所以内存(尤其是HBM)成了最抢手的资源。这个市场不像过去两三年就崩一次的存储周期,而可能像电力革命一样,持续几十年。
一、为什么推理让内存成了主角?
想象一下:你让一个700亿参数的大模型帮你写一段话。它每生成一个字(技术上叫一个token),都要做三件事:
把整个模型的所有参数(大约140GB)从内存里读出来,送到计算核心;
把这个字之前的所有对话历史(叫KV Cache)也读一遍;
最后做计算,得出下一个字。
前两步是“搬运数据”,第三步才是“计算”。
问题的关键是:搬运数据的时间,通常比计算的时间还要长。
一个700亿参数的模型,模型本身就有140GB。
生成每个字都要重新读一遍这140GB。
如果你想每秒生成30个字(流畅对话),你的内存带宽必须达到每秒4.2TB以上。
这就是为什么NVIDIA最新的H100/H200显卡,内存带宽设计在3.35~4.8 TB/s——低于这个数就会卡顿。
带宽决定速度,容量决定你能不能装下整个模型。
带宽不够 → 吐字慢
容量不够 → 要把模型切成几块,分到多张显卡上跑,显卡之间来回通信,又产生新瓶颈。
目前两大厂走的路不同:
NVIDIA:押带宽(最新Rubin R200,22 TB/s) → 适合高并发、低延迟的商用服务。
AMD:押容量(下一代MI455X,432 GB) → 适合一次跑超大模型(比如671B参数的开源模型)。
另外还有一个“异类”Cerebras,直接把内存焊在芯片上,容量只有44GB,但带宽高达21,000 TB/s —— 是NVIDIA的950倍。但它装不下大模型,只适合特定场景。
二、推理模型让内存更紧张了
现在的AI(比如OpenAI的o1、DeepSeek-R1、Claude的“扩展思考”)不会直接回答,而是先在后台“想很久”。
这些“想”的过程会产生大量中间内容,全部存在内存里,叫KV Cache。
一次128K上下文的请求,KV Cache就要占40GB。
如果4个人同时问,KV Cache就要160GB(超过目前任何单张显卡的显存)。
这就是为什么要搞GQA(分组查询注意力)这类优化技术,把KV Cache压缩。但现在已经压到极限了,KV Cache仍在涨。
DeepSeek自己的数据:同样一个模型,加了推理能力后,推理成本涨到5倍,速度慢3-10倍。不是计算慢了,是“想”的过程产生了太多中间状态。
即使OpenAI在GPT-5.5里把token效率提高了40%,他们依然同时锁定了Cerebras 750兆瓦和NVIDIA新一代显卡的产能。这说明:单次效率优化,根本追不上用户数和任务量爆炸式增长。
结论:推理时代真正稀缺的,不是GPU算力,而是装得下数据、跑得快数据的内存。
三、HBM是什么?为什么它能赚得比台积电还猛?
3.1 内存的三种“形状”
DDR:平铺在主板上的长条内存(普通电脑、服务器)。
GDDR:游戏显卡上的内存,比DDR快但更费电。
HBM:AI时代的新物种——立体堆叠。
HBM的做法:把8颗、12颗甚至16颗内存芯片垂直叠起来,中间用硅通孔(TSV) 技术打通电路,然后用几千条细线直接连到GPU旁边。
这样做的好处是 “接口极宽”:
普通的DDR5,一次传64位数据。
HBM3E,一次传1024位。
HBM4,一次传2048位(是DDR5的32倍)。
加上可以同时贴8个HBM堆栈,总带宽轻松到几十TB/s。
3.2 HBM的代际更替
2026年上半年的主力是HBM3E(NVIDIA B200、AMD MI355X),下半年将切换到HBM4(NVIDIA Rubin、AMD MI455X)。
3.3 为什么HBM能赚到81%的毛利率?
美光2026年Q3的毛利率指引是81%。SK海力士营业利润率72%(超过台积电的58%)。
三个原因:
客户不问价:买家就是NVIDIA、AMD、Google、AWS、Meta这几家。他们怕的不是买贵了,而是怕买不到——缺一颗HBM可能导致一个几十亿美元的数据中心延期。
供给扩张极慢:建一个内存晶圆厂要3-5年。SK海力士、三星的HBM产能已经卖到了2027年底。海力士董事长公开说“晶圆短缺至少持续到2030年”。
制造门槛极高:把12层芯片完美叠在一起,良率比普通内存低30-50%。16层更难。谁能率先量产16层,就是HBM4E时代的赢家。
SK海力士2026年Q1营业利润同比暴增405%,员工人均年终奖传闻高达47.7万美元——制造业历史上没见过这种水平。
四、HBM三国杀:海力士、三星、美光
4.1 SK海力士 – 最稳,但也最依赖NVIDIA
份额:57%(营收口径)。
成功原因:
早进场两年,工艺数据库领先。
独家MR-MUF封装技术,堆12层良率高。
90%的HBM卖给NVIDIA,深度绑定。
风险:万一NVIDIA被别家抢走份额,海力士跟着受伤。
4.2 三星 – 差点掉队,现在打翻身仗
份额:约22%(营收口径,比特出货量高但单价低)。
过去问题:HBM3E 12-Hi没通过NVIDIA认证,错过了整个Blackwell世代。
转机:
2026年2月率先商用HBM4,比海力士还早。
与AMD签署战略合作,成为AMD MI455X的主供应商。
形成新的阵营:AMD + 三星 对阵 NVIDIA + 海力士 + 台积电。
三星是唯一同时拥有内存和逻辑代工能力的企业,可以两条腿走路。
4.3 美光 – 唯一的美国玩家,享受地缘红利
份额:约21%。
独特优势:
拿到美国CHIPS法案大量补贴。
美国国防部、能源部要求本土供应链 → 只有美光能接。
微软、谷歌、AWS与美国政府签的合同,也要求“本土化” → 美光受益。
激进预测:HBM总市场从2025年350亿美元增长到2028年1000亿美元(相当于整个2024年DRAM市场的规模)。
关键变量:SK海力士计划2026年下半年在美股ADR上市。一旦上市,美国资金可以直接买到全球第一的HBM标的,美光目前的“唯一美股HBM股”溢价可能被稀释。
五、内存不够用,大家想了哪些“补丁”?
既然HBM这么贵、这么缺,云厂商总不能干等。他们搞了一套分层存储:
最热的数据(当前对话)→ 放在HBM(最快、最贵)
温的数据(不太常用的上下文)→ 放在普通DRAM
冷的数据(历史记录)→ 放在CXL内存或NVMe固态硬盘
这样就能减少对HBM的直接需求。
其他补丁技术:
CXL内存:可以扩展到上百TB,延迟稍高,但便宜很多。某些场景下推理吞吐量提升20多倍。
LPDDR5X / SOCAMM:原本用在手机/笔记本上,现在被搬进服务器。功耗低、体积小、价格只有HBM的1/4。Intel下一代推理GPU打算放弃HBM,纯用160GB LPDDR5X。
DDR5 / MRDIMM:传统服务器内存,带宽也能做到接近HBM入门款。澜起科技是这类内存接口芯片的全球龙头。
但是,几乎所有“补丁”方案,最终内存芯片还是海力士、三星、美光这三家在供应。所以他们不只赚HBM的钱,还赚补丁的钱。
六、Cerebras:“我不跟你们玩了”
有一家叫Cerebras的公司,正在准备IPO。它的思路完全不一样:
不堆HBM,而是把44GB的SRAM直接埋在芯片上。
芯片整块晶圆不切割(像一个大餐盘),面积是NVIDIA H100的57倍。
内存带宽21 PB/s(即21,000 TB/s)。
效果:推理速度极快,延迟极低。Meta用它跑400B参数的Llama模型,每秒生成2500个token,比NVIDIA B200快2-3倍。
但缺点也很明显:
44GB装不下大模型(要跑超过700亿参数的模型,得把好几片芯片连起来,速度优势就没了)。
单颗芯片功耗1500W+,一套系统23kW,普通数据中心放不了。
良率极低(一整片晶圆上只要有一个坏点,整片就可能报废),虽然通过设计容忍了缺陷,但实际成本不透明。
客户集中:86%的收入来自阿联酋的两家实体。OpenAI、AWS、Meta签的都是大框架合同,还没真正付多少钱。
它的IPO招股书显示,如果剔除一笔一次性会计收益,实际经营亏损同比扩大247%。这是一个需要警惕的信号。
其他类似“非HBM路线”的玩家还有Groq(已被NVIDIA购买技术授权)、SambaNova、Tenstorrent等,但目前都不成气候。
七、ASIC芯片会威胁HBM吗?
ASIC就是专用芯片,比如Google的TPU、AWS的Trainium、微软的Maia、Meta的MTIA。它们都在抢NVIDIA的市场份额。
但这些ASIC同样需要HBM:
Google TPU v7:192GB HBM3E
AWS Trainium 3:使用HBM3E
微软Maia 200:216GB HBM3E + 272MB片上SRAM
所以ASIC越火,HBM卖得越多。客户从“只依赖NVIDIA”变成“NVIDIA + 多家云厂商”,对内存厂商反而是分散风险。
至于“片上SRAM会替代HBM”的担心:SRAM是L3缓存,HBM是主存,两者是配合关系,不是替代。增加SRAM是为了减少访问HBM的次数,但不会让HBM消失。真正“零HBM”的只有Cerebras这种极端方案,产量极小。
结论:ASIC兴起是NVIDIA的威胁,但对HBM三巨头是结构性利好。
八、最核心的问题:HBM到底是周期股,还是AI基础设施?
8.1 过去30年的“悲惨剧本”
存储行业过去30年经历了至少5轮大周期,剧本几乎一样:
某个新应用(PC、互联网、手机、云、远程办公)拉动需求暴涨。
三大家疯狂扩产。
需求增长放缓,客户库存满了。
供给过剩,价格腰斩再腰斩,毛利率从50%+跌到负数。
弱者破产,行业整合,然后等待下一轮。
最近一次就在2022-2023年,三星存储业务营业亏损。
8.2 这次有什么不同?
信号一:整个存储栈一起卖光
过去是轮动——DRAM紧张时,NAND可能很松;NAND紧张时,HDD可能不好卖。但现在是HBM、普通DRAM、NAND固态盘、甚至机械硬盘(HDD) 全部缺货。
机械硬盘大厂希捷的CEO说,他们的近线硬盘产能已经分配到2027年。原因是:AI推理、Agentic AI、自动驾驶产生的数据量太大,什么存储都要。
信号二:类比电力革命,而不是造船业
有人用2021-2022年的造船业周期来类比:当时集装箱船短缺,运费暴涨,船厂利润创新高,后来周期结束,一地鸡毛。
这个类比是错的。造船业的需求是一次性冲击(疫情打乱供应链),而AI的需求是不可逆的企业IT换代:
一个律师用AI审合同后,不会再回去纯人工。
一家医院用AI辅助诊断后,不会再撤掉。
一个程序员用AI写代码后,不会放弃。
每一次企业接入AI,都是永久性的需求增长。就像1880-1920年的电力革命,电力需求增长了几百倍,持续了近半个世纪。
信号三:AI capital expenditure(资本支出)已经不再是少数大模型公司在烧钱
Anthropic的年化ARR(年度经常性收入)从10亿美元涨到300亿美元,只用了15个月,全是企业客户付的钱。
微软的AI业务年化收入370亿美元,同比增长123%。
微软已经把2026年资本支出指引调到1900亿美元,主要原因就是内存价格暴涨。
即使明天OpenAI倒闭,企业对推理算力的需求也不会消失——因为AI已经嵌入到律师、医生、工程师、客服的日常工作流程里了。
8.3 结论
这次不是过去的短周期。
需求曲线长期向上,短期没有“增长放缓”的迹象。
整个存储栈被永久激活。
企业IT换代不可逆。
当然,这不代表没有波动(产能释放、客户库存变化、市场情绪都会引起价格波动),但底层结构已经变了。
而且,即使HBM被部分分流,三巨头在“补丁”产品(DDR5、LPDDR、NAND等)上同样是主要供应商。最差情况也能赚40%的毛利率,这仍然好于上一轮存储周期的高点。
九、总结:记住这三点就够了
推理时代,内存比GPU算力更稀缺。HBM凭借超宽接口和立体堆叠,成为AI算力链条上最赚钱的环节之一。
HBM三巨头(海力士、三星、美光)正在打一场持久战。它们各自绑定不同阵营,工艺和良率是真正的护城河。SK海力士领先,三星靠HBM4和AMD结盟反击,美光靠美国本土身份吃地缘红利。
这次很可能不是传统存储周期。过去的故事是“暴涨→扩产→崩盘”,但AI需求由无数不可逆的企业应用驱动,整个存储栈第一次同时卖光。更像电力革命,而不是造船业泡沫。
最后的最后:市场目前给HBM三巨头的估值只有5-7倍市盈率,也就是说,投资者依然按照“周期股”在定价。如果这一次真的不再是传统周期,那么估值就可能被重估。这既是机会,也是风险