这两天,总刷到帖子说马斯克把自家的数据中心 Colossus 1 租给 Anthropic,宣告搞 AI 失败,认输了。即使老马第一时间就说了 Grok 会放到 Colossus 2 上训练,不知道这些人是故意博流量还是真的这么傻。
今天看了 Mirae Asset Securities (未来资产证券,韩国最大的券商)针对这笔交易的研报,结合 The Information 的调研,以及最新一期 All In Podcast 的观点,聊聊这笔合作背后的深层次原因,以及这件事为什么可能改变 SpaceX 的资本故事。
1. 最关键的一点:Colossus 1 卡很多,但太混了
先看 Colossus 1 本身。根据公开信息,Colossus 1 是 xAI 在孟菲斯建设的大型 AI 超算集群,规模超过 22 万张 NVIDIA GPU,对应 300MW 以上的电力容量,是目前全球最大的单体 AI 训练集群之一。黄仁勋去年参观之后说,这个集群从零到建成只用了 122 天,他从没见过任何人能以这种速度建出这种规模的东西。
规模是够大,但是问题在于它更像一支为了抢时间窗口快速拼起来的“混合舰队”,因为这 22 万张 GPU 并不是同一代硬件。研报和公开讨论里提到的结构大致是 H100、H200 和 GB200 混合部署,也就是说,整个集群同时包含 Hopper 和 Blackwell 两代架构。
22 万张 GPU 听起来就像一个绝对优势,但大规模分布式训练真正看重的是这些卡能不能作为一个整体高效同步。大模型训练通常需要大量 GPU 在同一个训练步骤里一起推进,每一步完成后,系统要等待最慢的节点。如果 GB200 已经算完了,但 H100 还没有结束,那么更快的 GPU 也只能等着;如果某一部分节点延迟更高,整个训练链路都会被拖慢。
这就是所谓的 “Straggler Effect”(掉队效应)。这个逻辑其实不难理解:一个团队整体跑步,最后速度取决于最慢的人。GPU 数量越大,硬件代际越复杂,网络、功耗、散热、调度和稳定性问题就越容易被放大。
The Information 此前披露过一个很关键的数字:xAI 当前集群的 MFU(Model FLOPs Utilization,模型算力利用率)只有 11%。Mirae 的研报把这个数字拿出来对比 Meta 和 Google,后两者大致在 40% 以上。这个对比不一定能完全代表所有训练场景,但至少说明一个问题:如果这些数字接近真实情况,那么 xAI 拥有大量 GPU,并不等于它能把这些 GPU 的训练效率全部释放出来。
更麻烦的是 Blackwell。GB200 的功耗波动、散热和调度要求比 Hopper 更复杂,而 xAI 原本的软件栈更多是围绕 Hopper 架构构建的。如果软件系统没有很好理解 Blackwell 的功耗特性,在不规律负载下就可能带来设备稳定性和硬件损伤风险。这个说法听起来很技术,但结论其实很简单:Colossus 1 对训练来说,并不是一个最舒服、最高效的同构集群。
也正因为如此,马斯克后来提到下一代 Grok 会放到 Colossus 2 上训练,就变得更容易理解了。公开说法里,Colossus 2 首批用于训练的是 55 万张 GB200 和 GB300,也就是 Blackwell / Blackwell Ultra 这条线。它未必是严格意义上的单一型号同构集群,但相比 Colossus 1 这种 H100、H200、GB200 混在一起的状态,训练架构会清晰很多。这样一来,Colossus 1 继续承担下一代 Grok 的核心训练任务,反而未必是最优选择。
2. 为什么反而是 Anthropic 的好资产
大模型训练和推理,对硬件的要求不一样。训练需要高度同步,尤其是前沿大模型训练,一旦节点之间速度不一致,就会出现大量等待和浪费;但推理更像是把不同用户请求分发给不同资源处理,每个请求之间相对独立,对全局同步的要求没那么极端。
一个训练效率很差的异构集群,在推理场景里未必就没有价值。H100、H200、GB200 可以分别承担不同类型、不同规模的推理请求,不需要像训练那样每一步都保持严格同步。而且这次 Anthropic 是单一租户,整个集群由一个主要客户使用,不是普通公有云那种多租户混杂环境,调度复杂度和延迟抖动也会相对少一些。
所以简单说就是Colossus 1 放在 xAI 的下一代训练任务里不算理想,放到 Anthropic 的推理场景里,却可能是一块非常有价值的资产。就像一辆车不适合跑 F1,并不代表它不能做长途货运,关键要看资产和用途是否匹配。
Anthropic 现在最缺的,恰恰就是推理算力。前两天 Code With Claude 大会上,Dario Amodei 也提到一个很夸张的数字:他们原本是按一年 10 倍增长去规划 Claude Code,结果 2026 年一季度,收入和使用量直接冲到了 80 倍级别,需求远远打穿了他们自己的预期。
这笔合作披露后,Anthropic 第一时间说把 Claude Code 的 5 小时滚动使用上限翻倍,同时取消了 Pro 和 Max 用户在高峰期的额外降速。但这里必须得吐槽一下,5 小时速率限制是翻倍了,但周总额度并没有一起翻倍,体感上用起来更爽了,但也意味着更快把一周额度用完。
从这个角度看,Anthropic 找上 xAI,核心原因还是缺算力。xAI 把 Colossus 1 拿出来,也更像是在处理一块训练效率不理想、但做推理仍然很有价值的资产。双方的需求正好互补,这件事才真正成立。
3. 重点不在卖身,在错配资产变现金流
研报最后落脚在商业层,把这件事放进 SpaceX 的整体资本运作框架里看。目前公开报道是说 SpaceX 预计最快下个月就要 IPO了,目标估值 1.75 万亿美元。
在这个节点上,xAI 的财务状况是个不小的问题。它太烧钱了,但模型收入又远没有到 OpenAI、Anthropic 那种量级。按一季度的亏损速度年化,每年烧掉大约 60 亿美元。 一个每年烧 60 亿的 AI 研究院,和一个每年稳定收租 30-40 亿的“算力基础设施运营商”,在资本市场眼里是完全不同的故事。 把 Colossus 1 租给 Anthropic的收入几乎可以对冲掉 xAI 一半的亏损。
更重要的是叙事变了。马斯克现在可以对 IPO 投资者说:xAI 不只是一个烧钱的 AI 实验室,它还是一个“新云”(Neo-Cloud),手里有算力资产,能像 AWS 一样出租,稳定产生现金流。从AGI 烧钱机器变成数据中心房东,估值逻辑完全不同。
你可以质疑 Grok 目前打不过 Claude,也可以质疑 xAI 的训练效率不够好,但这些都不等于这笔租赁交易本身是错误的。马斯克把 Colossus 2(全 Blackwell 同构集群)留给自己训练下一代 Grok,把 Colossus 1(混合架构)租给 Anthropic 做推理,把一个“训练地狱”变成了现金流资产,这是把一个阶段性错配资产重新定价的动作,是教科书级别的资产轮换。
4. AI 行业真正的瓶颈,正在从模型变成供给
这件事背后反映的是 AI 行业的竞争层次正在分裂。过去大家讨论 AI 公司,最关心的是模型能力、榜单排名、用户体验和产品形态。但进入 2026 年之后,越来越多问题开始回到更底层的东西:GPU 和存储从哪里来,数据中心建在哪里,电力够不够,冷却怎么解决,网络和调度能不能撑住,监管和社区反弹会不会拖慢建设速度。
Anthropic 和 OpenAI 现在的增长,越来越卡在供给侧。如果电力、GPU 和数据中心可以无限供应,它们的收入曲线可能还会更陡。当用户需求足够强的时候,谁能更快把电子变成算力,谁就有定价权。
这也是为什么 Google、Amazon、Microsoft、NVIDIA、SpaceX 这些公司之间的关系会越来越复杂。它们可能在模型层互相竞争,也可能在云服务层互相合作;它们可能既是投资人,又是供应商,还是潜在竞争对手。用传统互联网产品战争的逻辑,很难解释这种结构。因为在 AI 行业里,基础设施本身已经变成了战略资产,而不是单纯的后台成本。
从这个角度看,马斯克的优势也变得更清楚。他一直以来最擅长的事情,是把复杂工程规模化:造工厂、造电车、造火箭、做电池、做能源系统、做 Starlink。数据中心本质上也是一种工厂,只不过生产出来的是 token、推理能力和 AI 服务。如果他能把这种工程组织能力迁移到 AI 基础设施上,那么 xAI 的故事就会从 Grok 能不能打赢 Claude,继续往 SpaceX/xAI 能不能变成下一代 AI 基础设施平台延伸。
写在最后
回过头再看这笔合作,我觉得它真正值得关注的地方,其实是 AI 行业的竞争逻辑正在发生变化。模型当然重要,产品当然重要,但当整个行业进入供给瓶颈阶段之后,算力、电力、数据中心和资产调度能力,会变成决定胜负的重要部分。
Mirae 这篇研报提供了一个很有价值的视角:Colossus 1 很难简单归类成“好资产”或“坏资产”。它作为训练集群不够理想,换到推理场景里,可能又非常值钱。马斯克把它租给 Anthropic,看起来像向竞争对手低头,放进资产配置的框架里看,其实是在把一块不适合继续承担核心训练任务的资产,重新放到更适合的位置上变现。
所以,真正的问题可能要换一种问法:马斯克能不能把 xAI 从一个单纯烧钱的 AGI 实验室,变成一个同时掌握模型、算力、电力、数据中心和云服务能力的基础设施平台?
如果这个逻辑成立,等 SpaceX 真的走到 IPO 那一天,你还会只把它当成一家火箭公司来估值吗?