每周研报学习:英伟达超节点 Vera-Rubin NVL72图文拆解

本文选自东兴证券，仅供学习参考

1、超节点 VR NVL72，全球领先的 Scale up 网络算力平台

随着大模型技术的发展，越来越多的算力集群需要同时承载训练和推理负载，但 AI 训练与推理对网络需求存在显著差异。

AI 推理网络具有分布式、低延迟、按需任务调度、高效率、强外部交互特点。

AI 训练网络具有长周期、大规模、高同步性与稳定性、弱外部交互特点。AI 训练场景下，训练是一个持续数天甚至数周的过程，需要大量 GPU/TPU 之间频繁同步模型参数、梯度，对网络的同步性和稳定性要求极高；训练通常是单个超大规模任务，需要跨机房、跨园区的集群协同，因此网络需要支持长距离、高带宽的稳定传输；训练中如果出现个别节点/链路的延迟过高（尾部延迟），会拖慢整个集群的同步节奏，导致整体训练效率下降，因此网络需要严格控制延迟抖动；训练过程主要是集群内部的数据传输，和外部用户/系统的交互很少，因此对外部接口的需求低，更关注内部网络的性能。

在最新的 AI 大模型训练中，张量并行与专家并行计算同样要求高带宽与极低时延。大模型参数规模从千亿级向万亿级乃至十万亿级演进，跨服务器张量并行计算成为必然选择。张量并行要求多张卡一起完成一个层内计算，因此算力网络会在模型前向、反向过程中反复通信；此外，混合专家（MoE）模型在 Transformer架构大模型中规模化应用，每个 token 会被路由到不同专家，专家分布在不同设备上，就会产生大量分发和聚合通信。专家越多，并发越高，通信越重

Scale up 与 Scale out 网络均衡发展，构建高带宽互联的集群算力网络。随着模型参数和集群规模继续扩大，大模型训练并不是简单的“卡越多越快”。如果通信跟不上，更多算力卡只会带来更多等待，而等待同步的时间就会吞掉算力收益

Scale up 网络与 Scale out 网络特点对比如下：

Scale up（左）vs Scale out（右）

算力规模：数十卡至千卡级 vs 万卡至十万卡级；

资源利用率：80%以上 vs 30%-50%；

通信延迟：百纳秒级 vs 微秒级；

内存访问：统一内存或全局地址空间 vs 独立内存空间；

标准化：定制化程度高 vs 基于开放网络标准，相对统一。

2026 年英伟达最新发布的超节点 Vera-Rubin NVL72，是全球领先的 Scale up 网络算力平台。Rubin 平台由六款全新芯片组成，包括 Vera CPU、Rubin GPU、NVLink 6 交换机、ConnectX-9 SuperNIC、BlueField-4DPU 和 Spectrum-6 以太网络交换机。据英伟达公布的数据，Rubin 平台的训练性能达到前代 Blackwell 的3.5 倍，运行 AI 软件的性能提升 5 倍。此外，与前一代相比，英伟达 Rubin 平台在训练 MoE 模型时所需的GPU 数量减少至原来的四分之一，进一步推动人工智能的普及应用。

VR NVL72 机柜构成包括：顶部的 OOB 管理交换机、电源柜、机架加强件、运算托盘与交换托盘。其中计算托盘 18 个，每个托盘 2 颗超级芯片，每颗超级芯片集成 1 个 Vera CPU 与 2 块 Rubin GPU；交换托盘 9个，每个托盘集成 4 颗第六代 NVSwitch 芯片；共计 72 个 Rubin GPU 封装、36 个 Vera CPU 与 36 个 NVLink6 Switch ASIC。

2. 拆解 VR NVL72 计算托盘，通信速率三重升级：1.8TB/s NVLink-C2C+ PCIeGen6+800G 以太网

VR NVL72 计算托盘由六类模块拼合而成：后半部是 2 块 Strata 模块；前半部是 4 块 Orchid 模块；托盘中央垂直插着 1 块 PCB Midplane；前部中央还有 1 块 BlueField-4 模块、1 块 PDB 电源分配板、1 套 SMM 系统管理模块。各模块之间通过板对板连接器相互连接。

Strata 模组容纳两个 Rubin GPU 与一个 Vera CPU，并引入 SOCAMM 插槽供 Vera CPU 的 LPDDR 内存使用，位于 Vera CPU 左右两侧的八个 SOCAMM 插槽支持 192GB 或 128GB 模组，使每个 Vera CPU 能实现 1024-1534GB 的弹性内存配置。每个 Orchid 模组容纳两个 ConnectX-9 NIC、两个 800G 收发器笼与一个 E1.S 模组插槽供本地存储。

在 VR NVL72 中，AI 计算任务从外部网络进来，数据经过 ConnectX-9、BlueField-4、Vera CPU，再分配到GPU 和机架内其他 71 颗 GPU 协同完成计算，最后计算结果通过网络传送出去。

在计算托盘中，数据传输路径可以分为三段：

Vera CPU 至 Rubin GPU 之间通过 NVLink C2C 高速链路互联；

Vera CPU 至 CX-9 之间通过两条 PCIe Gen6 链路分别连接到两个 CX9 的 PCIe Switch 模块；

以及 CX-9 至 OSFP 之间通过 800G 以太网/ InfiniBand 互联。

NVLink-C2C 技术重构异构计算的互联范式，在裸片/芯片间互联领域建立巨大的领先优势。在 VR200 NVL72中，Rubin-Vera 之间依托 NVLink-C2C（Chip-to-Chip，芯片到芯片互联）实现双向带宽 1.8TB/s CPU-GPU互联，延迟纳秒级，相比 GB200 NVL72 的 NVLink-C2C 的 900GB/s，提升一倍。而主流 PCle Gen5 架构双向带宽为 128GB/s 带宽，非一致性内存访问增加编程复杂性以及计算资源闲置等待。NVLink-C2C 的核心技术原理在于：通过 AMBACHI 协议实现硬件级缓存一致性，CPU 和 GPU 缓存自动同步；CPU 内存与 GPU显存在软件视角呈现为单一内存池；对系统范围跨处理器的原子读写无需额外同步原语。

采用 PCIe Gen6 协议实现 Vera CPU 与超级网卡 CX-9 互联。PCIe Gen6 是第六代高速外设互联标准，CPU与网卡、存储等外设的通用接口。PCIe 6 接口支持 48 条 Lane，每条 Lane 单向速度 64 Gbps。因此，Vera与 CX-9 之间接口双向总带宽达到 768GB/s。

PCIe Gen6 信号需要使用高端 PCB 与玻纤布传输。在 VR200 NVL72 计算托盘中，PCIe Gen6 信号从 Strata模块传输到 Orchid 模块前端，PCB 距离长达约 500mm。为实现信号完整性，VR200 NVL72 除了升级双向SerDes 技术外，还需要升级 PCB 材料。在材料层面，CCL（覆铜板）从 M7 升级到 M8/M9，主计算板和网络板的铜箔升级到 HVLP4，材料价值显著上升；为了降低介质损耗，玻璃纤维布或价值更高的石英材料被用于 Orchid 板和中置板。

用以太网/ InfiniBand 协议实现超级网卡 CX-9 与 OSFP 光模块笼口互联。CX-9 一项重要升级在于，其在以太网模式下通过单个端口即可提供 1x800G 的传输能力，无需依赖多链路聚合实现总吞吐量。相比之下，CX-8 仅在 InfiniBand 架构下支持 800G 速率，但在以太网模式下通常以 2x400G 的配置呈现。

在 VR NVL72 计算托盘中，8 个 800G 的 CX-9 网卡对应 OSFP 笼位的数量有两种方案：一种是每颗 GPU配 1 个 1.6T OSFP 笼口，则每个计算托盘共 4 个 1.6T OSFP 笼口；另一种则是每颗 GPU 配 2 个 800G OSFP笼口，则每个计算托盘共 8 个 800G OSFP 笼口。

800G 以太网的核心技术原理是通过 4×200G PAM4 串行链路实现。PAM4（Pulse Amplitude Modulation4-level，四电平脉冲幅度调制）是一种在相同时间内传递更多比特的调制技术——普通信号只有高/低两种电压，代表 0 和 1；PAM4 使用四种电压等级（比如 0V/0.33V/0.67V/1V），分别代表 00/01/10/11，每次传输 2个比特，实现单位时间信息密度翻倍。

InfiniBand（无限带宽）：起源于 1999 年，最初为 HPC 超算集群设计，特点：低延迟（约 1 微秒端到端）、高带宽、支持 RDMA。英伟达 2019 年以 69 亿美元收购 Mellanox 后获得 InfiniBand 全栈。Quantum-3 是当前最新的 InfiniBand 交换 ASIC。

Ethernet（以太网，IEEE 802.3 标准）：1973 年由 Xerox PARC 发明，全球最通用的有线网络标准。AI 数据中心以太网已从 100GbE 升级到 400GbE、800GbE，下一代 1.6TbE 正在标准化。英伟达 Spectrum-X 和博通 Tomahawk 系列是 AI 以太网主要竞争方案。

3. ConnectX 超级网卡价值显著提升：内置 PCIe 交换模块与以太网交换逻辑

ConnectX‑8/9 定位超级网卡（SuperNIC），性能远超传统网卡。2025 年 8 月，英伟达正式发布专为 Blackwell架构和加速超大规模 AI 工作负载而设计的 ConnectX-8 SuperNIC。ConnectX-8 SuperNIC 单端口 800Gb/sInfiniBand（XDR）或双端口 400Gb/s Ethernet（Spectrum-X），为上一代 ConnectX-7（200Gb/s）的 4 倍，是当前业界最高带宽网卡。2026 年 1 月，英伟达推出高性能智能网络接口卡 ConnectX-9，核心变革在于实现单端口 800Gb/s 的以太网传输能力。

超级网卡内置 PCIe Gen6 交换模块，替代传统独立 PCIe 交换机。ConnectX-8 内置 48 通道 PCIe Gen6 交换机，单芯片实现“网络接口 + GPU 间交换”二合一，有助于消除 IO 瓶颈，并加快 GPU、NIC 和存储之间的数据移动速度。基于 ConnectX-8 的优化设计可为集群内的所有 GPU 间通信提供高达每个 GPU 50GB/s 的 IO 带宽，因为 NCCL 直接通过网络转发所有流量。

ConnectX-8 技术栈分为三层。

上层：Host/GPU 侧的 AI 通信专用 API。NCLL 是 GPU 间集合通信的核心库，是大模型训练中多卡同步的基础。NIXL 支持网络内集合通信，进一步降低主机侧的通信开销。Verbs 是 RDMA 的通用编程接口，是高性能通信的底层标准。DOCA 是 NVIDIA 的芯片级数据中心编程框架，包含 PCC（拥塞控制）、PRDMA（可编程 RDMA）、FLOW（流处理）等功能。

中层：ConnectX-8 硬件架构。PCIe Switch 是内置 PCIe 交换模块，优化主机/GPU 与网卡之间的数据传输路径；RDMA 是硬件级 RDMA 引擎，实现低延迟、高吞吐的直接内存访问，是 AI 通信的核心；

PSA Packet Processor 是可编程数据包处理器，支持灵活的数据包处理逻辑，适配不同的网络协议和工作负载；Spectrum-X Ethernet Switch 是内置以太网交换逻辑，与 NVIDIA Spectrum-X 交换机深度协同，实现端到端的网络优化；DPA Event Processor 是专用事件处理器，处理网络事件和任务调度，减轻主机 CPU 负担；NIC Memory System 是网卡本地存储系统，用于缓存数据、优化流控和拥塞处理。

下层：网络层协议支持。ConnectX-8 同时支持两种主流高性能网络协议：Spectrum-X Ethernet 基于以太网的高性能网络，兼容标准以太网架构，适合大规模数据中心部署；Quantum-X InfiniBand：InfiniBand

ConnectX 集成 Spectrum‑X 交换逻辑，构成端到端 800G AI 网络。SuperNIC 内部集成 Spectrum‑X 风格的交换与加速逻辑”并作为 Spectrum‑X 以太网平台的终端侧关键组件，与外部 Spectrum‑X 交换机（如SN5600 列）端到端协同。

ConnectX-8 与 GB300 平台的 GPU / 主机架构深度协同，关键能力包括 NCCL、DOCA、PCIe Switch、PCIe Gen6；

与 Spectrum-X 交换机形成端到端的高性能网络，关键能力包括：Multiplane Switch（多平面交换技术）、Adaptive Routing（自适应路由）、Congestion Control（硬件级拥塞控制）、Spectrum-X（端到端的 AI 通信优化）。

协议的高性能网络，专为超算和 AI 集群设计，提供极致的低延迟和高吞吐。

交换机（Spectrum‑X Switch）与终端 SuperNIC（ConnectX‑8）协同优化，为 AI / 超算以太网带来的五大关键性能提升。负载均衡方面，实现 1.6X 更高有效带宽；尾延迟优化方面，实现 1.3X 更高集合通信带宽；噪声隔离方面，实现 2.2X 更高 All-reduce 带宽；弹性性能方面，实现 1.3X 更高 All-to-all 带宽；高频遥测方面，实现 1000X 更快遥测采集。

自 2025 年开始，超节点成为 AI 算力网络重要的技术创新方向。本篇报告从计算托盘角度拆解英伟达 VRNVL72，可以看到，英伟达 VR NVL72 以 1.8TB/s NVLink-C2C+PCIe Gen6+800G SuperNIC 构建三重高速通信壁垒，其核心竞争力源于芯片级互联、高速总线、超级网卡的全栈技术垄断。当前我国 AI 算力网络在超高速互联协议、800G SuperNIC、PCIe Gen6 交换芯片等领域仍存代差，自主可控需求迫切。建议聚焦高速互联芯片、800G/400G SuperNIC、高端光模块、高速 PCB / 覆铜板、超节点整机方案五大国产替代主线。

ZBlogIt

Nice to meet you, too!

每周研报学习:英伟达超节点 Vera-Rubin NVL72图文拆解

wang 发表于2026-05-23 09:47:05 浏览3 评论0

少长咸集

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30