×

每周研报学校:FPGA芯片深度研究

wang wang 发表于2026-06-07 12:41:50 浏览2 评论0

抢沙发发表评论

每周研报学校:FPGA芯片深度研究
本文选自东方证券研报,仅供学习参考
一、FPGA:现场可编程门阵列
1.1 架构:多模块可重构
FPGA 是现场可编程门阵列。是 1985 年由赛灵思的创始人 Ross Freeman 发明。指一切通过软件手段更改、配置器件内部连接结构和逻辑单元,完成既定设计功能的数字集成电路。FPGA 是在PAL(可编程逻辑阵列)、GAL(通用阵列逻辑)、CPLD(复杂可编辑逻辑器件)等可编程器件的基础上发展而来的一种半定制电路。目前主要应用在航空航天、国防、消费电子、通讯、工业、AI 等领域。
属于标准器件中的 PLD。FPGA 属于万能芯片 PLD 中的一种,PLD 在芯片上逻辑门是固定的,只有布线是可重编程的,但 FPGA 是基于查找表实现逻辑要素,查找表电路不直接实现用户逻辑,而是利用多路复选器根据输入信号选择相应存储端口的值送到输出端口。查找表中布线是固定的,但逻辑是可重编程的,相较于 PLD 连线较少,更适合构建大规模逻辑电路。FPGA 内部由可编程开关决定信号线的连接路径,再由可编程的查找表来实现逻辑函数。

FPGA 由逻辑、输入/输出、布线三要素构成。FPGA 由输入/输出要素、可编程逻辑要素和可编程布线要素三部分组成,以岛型 FPGA 举例,由可编程逻辑要素、输入输出要素和布线要素(开关块、连接块、布线通道)和存储模块组成,相邻的逻辑块、连接块和开关块组成一个可编程逻辑块,模块呈阵列式排列最终形成岛型结构。

逻辑块:市面上对于逻辑块结构的叫法各有不同,Xilinx 称为 CLB,Altera 称为 LAB,但本质原理类似。逻辑块基本要素包括查找表,其本质是静态随机存储器,其逻辑容量大小由输入端的信号数量所决定,目前一般为四输入查找表、五输入查找表和六输入查找表,但输入端数量增加会导致查找表面积的增加。除查找表外,逻辑块还包括实现时序电路的触发器和数据选择器等。逻辑块的核心是逻辑元件。

输入输出块:连接 I/O 引脚和内部布线要素,完成芯片与外部电路连接的功能,同时进行输入输出的信号驱动和匹配。

布线要素:包括开关块、连接块和布线块,作用是将不同的逻辑块连接起来,形成所需要的功能。布线要素中的开关块可以进行编程配置,可实现任意的布线通路。

1.2 特点:高灵活性和低时延

FPGA 具备高灵活性。与 ASIC 相比,FPGA 具备更高灵活性,比如在下游算法更新或协议升级时,无需重新设计硬件,仅更新配置文件即可,大幅缩短研发周期。在通信协议频繁升级、AI 算法快速演进的训练,这种灵活的优势凸显,AI 大模型推理框架每个月都会发生重大演进,从Transformer 到 MoE 架构的切换、从 FP16 到 FP8/FP4 量化精度的下探,均对基础硬件的计算模式提出了新的要求;FPGA 在不更换硬件的前提下通过逻辑重配,将硬件生命周期从单一模型代际延展至跨代复用。同时,FPGA 内嵌的高速 SerDes 接口可直接驱动 PCIe、CXL 等多种协议,符合 AI 服务器对多协议并存、快速切换的工程诉求。灵活性在传统领域的主要应用场景通信基站,后续在 AI 方面有望加速切入。

FPGA 具备低时延特点。与 CPU/GPU 相比,FPGA 时延会更低。主要有三个原因,第一是算法直译硬件,FPGA 通过可编程逻辑单元将算法直接映射为硬件电路,省去了 CPU/GPU 需要执行的指令解析和调度步骤,从根源上减少了计算延迟。第二是数据流驱动,计算单元按数据到达顺序直接处理,无需频繁访问内存或等待全局同步,进一步降低了通信开销。第三是并行运算,FPGA 内部包含大量可同时工作的逻辑单元,支持任务级和流水线级并行,多个任务能同时执行,显著提升吞吐量。

二、FPGA 在 AI 服务器的应用

2.1 控制:负责时序控制等环节

控制:CPLD/FPGA 负责 AI 服务器的系统管理与电源时序控制等功能。AI 服务器机柜功耗已从传统 8 卡机的 10-20KW 提升至超节点的 100KW 以上,供电时序管理的复杂度增加,GPU、HBM、交换芯片、DPU 等多芯片对上电顺序、欠压锁定与过流保护有详细要求,任何时序错误导致器件损毁。CPLD/小容量 FPGA 采用 Flash/EEPROM 等非易失性存储介质保存配置,掉电后数据不丢失,上电后无需像 SRAM 型 FPGA 那样从外部 ROM 重新加载比特流,即可立即工作。其可编程逻辑可在数十纳秒内完成电源轨的状态采样与保护响应。随着超节点机柜总功耗提升,同时供电架构向 HVDC 与 SST 转变,电源控制逻辑的复杂度持续提升,CPLD/FPGA 在单台服务器的单机价值量有望随之同步上行。

2.2 互联:承担协议桥接和互联

互联:FPGA 可在高速互联架构中承担协议桥接与板间互联的功能。以英伟达 Groq3 LPX 机架架构为例,LPX 机架内 32 个计算托架通过背板上的 ETL 主干实现机架级全互联。该互联背板需同时处理多协议,而上述协议在物理层接口、拓扑扩展架构以及生态上均不相同。在此情况下,FPGA 的可编程逻辑允许在单颗芯片内部署多套协议栈,并支持动态在线重配,灵活完成不同协议间的帧解析、转换与错误处理,对比来看 ASIC 桥接芯片难以在同一硬件平台上实现多协议的并行处理与后续迭代。因此在需要兼容多种互联协议的架构中,FPGA 成为协议桥接与板间互联的关键载体。举例来看,Versal 等高端系列 FPGA,通过可重叠迭代逻辑与 112Gbps PAM4SerDes 集成于同一芯片,在板间互联中应用。这一互联在整个 AI 服务器生态中具有普遍性,Scale-Up 领域现有协议包括 NVLink、UALink、SUE、UB 等,呈现多强竞争格局,FPGA 互联方案价值持续凸显。

2.3 计算:做加速器

计算层:主流芯片厂商已在推理服务器中验证了 FPGA 的计算加速价值,Altera Agilex 系列集成AI Tensor Block,官方手册显示其通过 oneAPI 等支持主流框架直接调用;微软自 2016 年 ProjectCatapult 起在数据中心规模部署 FPGA,公开技术资料显示其 Bing 搜索排序加速实现接近翻倍的吞吐量提升,并扩展至推荐系统与自然语言处理等在线推理任务。相较于纯 GPU 方案,FPGA 在AI 推理中的优势体现于三个维度:一是能效比,GPU 的 SIMT 架构在处理低并行度、内存带宽敏感型子任务时存在 Warp 调度开销,而 FPGA 将计算逻辑直接映射为硬件电路,以较低静态功耗维持持续吞吐;二是时延确定性,GPU 依赖内核动态调度,FPGA 的硬件逻辑以固定的硬件路径执行,推理响应具备确定性低时延;三是功能集成度,单颗 FPGA 可在同一器件内整合预处理、后处理及安全 I/O 等功能,减少多芯片方案的复杂度。

相关标的为在 FPGA 领域目前产品矩阵完善,同时在新品迭代较快的复旦微电、安路科技、紫光国微、成都华微等