搭建私有云服务器 (报告出品方/作者:西部证券,陈彤、曾庆亮) 一、Scale-up超节点:突破单卡计算瓶颈 大模型参数持续提升对算力集群扩大提出需求。更大的参数规模能够使···
搭建私有云服务器
(报告出品方/作者:西部证券,陈彤、曾庆亮)
一、Scale-up超节点:突破单卡计算瓶颈
大模型参数持续提升对算力集群扩大提出需求。更大的参数规模能够使大语言模型更有效 的利用上下文信息,显著提升模型输出的准确性和综合性能。同时,如混合专家模型(MoE) 等创新架构的广泛使用进一步提升了大模型的总参数规模,使得大模型的训练和推理需要 在更大的算力卡集群中完成。
跨服务器张量并行和专家并行等技术带来跨节点通信需求。张量并行(Tensor Parallelism, TP)是将单个权重矩阵等拆分到不同 GPU 上运行的技术,用来解决极大模型中单服务器 内存不足的问题,对于带宽和时延要求高。专家并行(Expert Parallelism,EP)是将不 同专家子网络分布到不同 GPU 上的技术,不同的输入仅激活模型的部分参数,大幅减少 计算和通信开销。在模型参数扩大和跨计算卡并行计算技术成熟的背景下,大规模算力集 群部署有望显著增加,跨节点通信对超节点系统提出需求。
超节点由核心计算节点、高速互联网络和辅助保障模块构成。超节点(SuperPoD)是英 伟达提出的,通过 Scale-up(纵向扩张)网络将多张算力卡(XPU)相互连接的超级服务 器。
计算节点主要包括 CPU、GPU 或者其他类型的 ASIC,完成加速计算的功能,附加交换和网络模块实现与其他节点互联。
交换节点和光互联、铜互联都属于高速互联网络的范畴。交换节点主要包括核心交换 芯片和接口等,实现各节点间数据的高效路由连接。Scale-up 网络目前主流方案可分 为铜缆互联和光纤互联两大类,其直接影响超节点系统的功耗、散热、成本、规模、 可靠性和可维护性等关键指标。
辅助保障模块包括用于解决超节点高密度计算带来的散热、供电、运维等问题,保障 系统稳定运行。
Scale-up 网络是在超节点中将算力卡高速互联的技术。传统交换架构(Scale-out 横向扩 张网络)在带宽和时延中难以满足卡间高速互联的需求,因此英伟达提出 NVLink 技术构 建了 Scale-up 网络,极大提高了模型推理和训练效率。 在 GB200 NVL72 机柜中,单个 GPU 通过 18 个 NVLink5.0 端口,总带宽可达到 1.8TB/s; 内部通过电缆连接,可节约因 CDR 或 DSP 引入的将近 100ns 的时延;基于 NVLink C2C, 超节点内所有超级芯片的内存可以互相访问。相较于 IB 或 RoCE 的横向扩张网络(如英 伟达 ConnectX-8 SuperNIC 网卡的柜间连接带宽为 800Gbps),Scale-up 网络有更优的 网络性能。
Scale-up 网络对通信带宽与通信延迟提出高要求。Scale-up 网络在训练中主要承载跨算 力卡并行数据,当采用张量并行(TP)技术进行训练时,网络流量需求较 PP 和 DP 方式 高出 1-2 个数量级,即在超大规模模型中单位时间内网络需要传输的数据量是此前的数十 到数百倍。因此 Scale-up 网络需要通过定制通信协议(如 NVLink)和交换硬件,提供超 过 1TB/s 的带宽以满足超大规模 AI 模型训练时的网络需求。 超大规模 AI 模型需要大量的内存资源,单张 GPU 难以提供足够的计算能力和内存资源, 因此需要利用 Scale-up 网络连接多张 GPU 形成一个巨大的计算单元,允许该计算单元中的各个 GPU 直接访问其他 GPU 的存储器,形成一个虚拟的大内存池来供模型使用。内 存的互访对延迟要求极高,内存访问时延一般需要低于 100ns,这对于 Scale-up 中的网 络设备和协议提出了极高要求,NVL72 方案中采用铜缆直连来降低时延,后续当算力卡 数量进一步增加,则需要高速光连接来解决大规模超节点内部的远距离互联问题。
Scale-up 网络技术持续升级,超节点系统已不再局限于单个物理机柜。超节点系统的算 力性能持续增长,这使得超节点中需要互联的算力卡数量持续增加,随着 Scale-up 网络 技术的升级,目前超节点系统已不再局限于单台机柜的物理限制,而是通过 Scale-up 网 络将多台机柜的大量算力卡互联,组成超级计算机。 如果按硬件形态可将超节点分为 3 类,分别是: 1)整机柜超节点:以高度集成化的设计将计算节点、交换节点与网络整合在一台机柜中, 整机供应链较为封闭,scale-up 网络以铜连接等短距高速连接为主。 2)分机柜超节点:计算节点与交换节点采用标准化硬件,通过 Scale-up 网络将多个机柜 的计算节点连接,计算和交换节点的部分产品可由其他标准化硬件厂商分别提供,实现了 硬件的部分解构。 3)级联超节点:将多套超节点进一步互联成更大规模的超节点,通过第二层网络连接不 同超节点。Scale-up 网络连接距离大幅提升,物理线路长度可达百米级别,能够满足更长 距离光连接应用的需求增加。
二、主流超节点系统概况
2.1 英伟达GB200 NVL72 超节点
英伟达通过自研 NVLink 高速互联技术,将 GB200/GB300 NVL72 在单机架内,连接 36 个 Grace CPU 和 72 个 NVIDIA Blackwell GPU。
NVLink 拥有比传统 PCIe 互联更高带宽和更低时延,其架构基于点对点通信,采用多通道 设计,每个通道包含多个差分对,为高性能计算提供高速数据传输。在 2024 年推出的 NVLink 5.0 中,通过提高时钟频率和信号调制效率,将单链路带宽翻倍,优化 PAM4 编 码效率。同时,引入 NVLink-C2C 技术,支持 900GB/s 的 CPU-GPU 带宽,并且协议栈 支持动态流量优先级,确保多种工作负载的平衡。
口袋云服务器
2.2 谷歌第七代TPU Ironwood超节点
谷歌第七代 TPU Ironwood 可扩展到 9216 颗芯片集群。谷歌在 Google Cloud Next 25 大会上正式推出第七代张量处理器 Ironwood,通过其 ICI scale-up 网络,超节点规模可达 到 9216 颗芯片,峰值性能达到 4614TFLOPS,是上一代 TPU v5p 的 10 倍。
性能方面,Ironwood 芯片的 HBM(高带宽内存)容量达到了 192 GB,可以处理更大的 模型和数据集,减少了频繁数据传输的需求并提高了性能。Ironwood 芯片每片 HBM 带宽 达到 7.4TB/s,确保了快速的数据访问。同时,服务于谷歌自研 scale-up 网络协议的芯片 间互连(ICI)带宽增加到 1.2 TBps(双向),可以实现芯片之间的更快的通信,促进了高 效的分布式训练和大规模推理。
谷歌创新性引入 OCS 光交换机构建超节点集群。谷歌阿波罗计划(Project Apollo) 用光路交换机(OCS)取代原有的电子分组交换机(EPS),与传统架构需要在核心层多次进行电-光-电信号转换不同,OCS 采用全光互联技术——通过镜面反射引导携带数据的 光束,实现源端口到目标端口的直接传输。据 Semianaylsis,谷歌自研的 OCS 网络架构 可使网络吞吐量提升 30%、能耗降低 40%、资本支出减少 30%、数据流完成时间缩短 10%、 网络可靠性提升 50 倍。
2.3 亚马逊Trainium2超节点服务器
Trainium2 服务器通过 NeuronLink 网络互联 64 芯片。单台 trn2 服务器占用 18U 机架单 元,包括一台 2U 的 CPU Head Tray,以及 8 个 2U 的 Compute Tray 组成。在机柜内部 采用无源铜缆(DAC)连接,将 16 颗计算芯片点对点连接为为 4*4 的二维环面结构,以 及每个计算托盘与 CPU 托盘两两相互连接。在机架层面,两台 16 芯片的 Trainium2 服务 器可安装在一台机架内,通过 4 台 6.4T ToR EFAv3 以太网交换机将 64 颗计算芯片互联, 在机架间采用有源铜缆 AEC 互联,以降低成本和提高计算稳定性。
亚马逊通过自研 NeuronLink 网络实现高速 scale-up 互联。NeuronLink 类似于 NVLink, 在短距离内实现芯片间的低延迟和高带宽通信,可为每颗芯片提供 640 GB/s 的单向带宽, 并可以与最多 6 个相邻芯片直接通信。通过 NeuronLink 可在服务器内部连接 16 颗计算芯 片,在服务器间连接 64 颗计算芯片。据 Semianalysis 统计,每台 Trn2-Ultra 服务器将包 含 48 个连接器和 1536 根铜缆,每个芯片的网络连接器和电缆总成本将接近 1000 美元。
2.4 华为CloudMatrix384超节点服务器
阿里云服务器app
CloudMatrix384 是华为推出的专为大规模 AI 工作负载构建的 AI 超级节点,能够实现 300 PFLOPS 的 BF16 算力,达到 GB200 NVL72 的 1.7 倍。CloudMatrix384 横跨 16 个 racks, 其中12个计算 racks 搭载了 384 个昇腾 910 NPU和192个鲲鹏CPU;以及 4台通信 racks 安装 L2 交换机,以实现通过统一总线(UB)的超高速带宽、低延迟网络互联。
区别于英伟达铜互联方案,华为采用了光互联和 UB 统一总线协议构造 Scale-up 网络, 包含 6912 个 400G LPO 光模块、3168 根光纤,通过两层交换网络实现 48 台昇腾服务器 的跨机柜互联。
三、Scale-up网络受益方向
3.1 超节点定制化程度高,硬件厂商附加值有望增加
超节点集群网络侧软硬件耦合紧密,硬件厂有望通过整机柜一体化交付方案提升附加值。 在 scale-up 网络场景,端到端延迟、带宽利用率、拓扑确定、流量模式都与传统数据中心 网络(即 scale-out)有很大不同,硬件(芯片、SerDes、交换 ASIC 等)与软件(操作 系统、网络协议栈、RDMA、流量控制等)必须紧密配合才能够实现 Scale-up 网络的苛 刻要求。 如北美交换及连接芯片供应商 Astera Lab 推出了 COSMOS(Connectivity System Management and Optimization Software,连接系统管理及优化软件),通过与公司的 PCIe、 线缆和交换机产品协同,能够实现硬件互联层面的可视化管理运维,提升产品附加值与客 户粘性。
中兴通讯:具备服务器+交换芯片+网络的全栈能力,国产算力核心卡位。中兴通讯是国内 稀缺的具备算力芯片、交换芯片和 DPU 等芯片设计+交换机服务器解决方案提供能力的企 业,能够提供自研算力服务器和超节点产品,实现全算力链条的自主可控。 公司自研的 AI 大容量交换芯片凌云 ,能够实现国产化 GPU 卡大规模高速互联,打造超 大规模智算集群;自研全系列 51.2T/12.8T 盒式交换机,在运营商、互联网、金融等市场 的百/千/万卡智算集群规模商用;自研定海DPU 芯片支持 RDMA 标卡、智能网卡及 DPU 卡等多种形态,适配高性能计算和深度学习等场景;自研珠峰CPU 基于 ARM v9 架 构设计,单颗 CPU 最大可达 128 核,性能行业领先。
锐捷网络:国产交换机龙头,受益国内 CSP 开支增长。公司主要产品包括网络设备(交 换机、路由器、无线产品等)、网络安全产品(安全网关、下一代防火墙、大数据安全平 台等)、云桌面整体解决方案(云服务器、云终端、云桌面软件)以及 IT 运维、身份管理 等其他产品及解决方案。公司是国内网络设备第一梯队,根据 IDC 统计,2025 年第一季 度,公司在中国以太光网络市场占有率排名第一,中国以太网交换机市场占有率排名第三; 中国数据中心交换机市场占有率排名第三,其中,在中国 200G/400G 数据中心交换机市 场份额第一。 公司 AI 智算中心网络方案在互联网客户市场获得广泛应用,数据中心交换机产品订单加 速交付,已服务于中国移动、阿里巴巴、字节跳动、百度、腾讯、快手、360 等国内头部 互联网厂商的大模型训练和推理场景。 25 年 9 月,公司在 CIOE 2025 上发布了 51.2T CPO 交换机商用互联方案,满足 AI 训练及超大规模计算集群对高速互联的持续增长需求。
3.2 以太网等开放协议走入scale-up网络,交换芯片、接口芯片等有望受益
以太网渗透率提升,scale-up 网络从封闭走向开放。在 2025 年 OCP 峰会上 Ethernet forScale-Up Networking (ESUN) 工作组成立,其成员包括 AMD、Arista、ARM、Broadcom、 Cisco、HPE Networking、Marvell、Meta、Microsoft、NVIDIA、OpenAI 和 Oracle 等。 这表明 scale-up 网络逐步由私有协议(如 NVLink 等)走向更为开放的以太网协议,第三 方交换芯片厂商或能将产品由 scale-out 网络进一步突破到柜内 scale-up 网络。
定制 Scale-up 高端交换芯片需求有望进一步增长。超节点集群内计算芯片的模型并行、 参数同步等功能均需要高带宽、低时延的点对点通信,交换芯片负责在输入输出节点之间 路由流量、切分和合并路径,因此交换芯片(Switch ASIC)的设计性能和交换带宽要求 较高。如英伟达自研 Nvlink/NVSwitch 芯片负责 GPU-GPU 的节点内部高速互联,亚马逊 通过其 NeuronLink 芯片实现 C2C 互联等。 交换芯片、接口芯片以及以太网交换机厂商有望受益。据 Lightcounting,Scale-up 交换 机市场将快速增长,2025年市场规模近57亿美金,2025-30期间5年CAGR预计为26%。 从 Lightcounting 和 J.P.Morgan 的统计表明,无论是在 Scale-up 或是 Scale-out 网络,以 太网将会是 GPU/ASIC 网络的主要技术路线之一,Scale-up 的以太网路线市场规模到 29 年有望增长到约 66 亿美金,约占总 scale-up 网络市场的 31%。
盛科通信:国产交换芯片头部玩家,加大 AIDC 互联高端产品线投入。公司是国内领先的 以太网交换芯片设计企业,主营业务为以太网交换芯片及配套产品。公司主要定位中高端产品线,产品覆盖 100Gbps~2.4Tbps 交换容量及 100M~400G 的端口速率,全面覆盖企 业网络、运营商网络、数据中心网络和工业网络等应用领域。公司交换容量为 12.8Tbps 及 25.6Tbps、最大端口速率为 800G 的高端旗舰芯片已进入市场推广和逐步应用阶段, 交换容量与端口速率均达到国际先进水平。
3.3 光铜并进,scale-up网络将创造更大连接市场
Scale-up 网络光互联与铜互联需求加速上行。铜互联作为低成本、高稳定性、低功耗的 短距离连接方案,是 Scale-up 网络和机柜层面的主流连接技术。据 Lightcounting 统计, 随着 GB200 NVL72 以及后续型号出货, AEC 与 ACC 需求将逐步增加,预计 2029 年全 球高速铜缆市场将达到 67 亿美金。光连接方面,可插拔光模块逐步从 scale-out 的柜外网 络向柜内 Scale-up 网络渗透,以太网光模块市场规模有望持续快速增长。据 Lightcounting 数据,全球以太网光模块市场在 2026 年将同比增长 35%至 189 亿美元,2030 年有望突 破 350 亿美元,26-30 年 CAGR 为 17%。
CPO 在高密度互联中有望逐步得到应用。英伟达在 GTC 2025 推出了 Quantum-XPhotonics(InfiniBand)和 Spectrum-X Photonics(Ethernet)两款 CPO 交换机,据 Yole 预测,CPO市场将从2024年的4600万美元增长到到2030年81亿美元,CAGR为137%。
OCS 光交换机上量也将拉动光器件产业需求。OCS 将随着谷歌 TPU 等集群出货迎来增 长,据 QYResearch 预测,到 2031 年全球 OCS 交换机市场将达到 20 亿美元,2025-31 年 CAGR 为 17.1%。
德科立:DCI 市场高速增长,OCS 光交换领先布局。公司主要产品包括电信传输类光收 发模块、传输类子系统、光无源模块、接入类产品、数通 DCI 产品等。受益全球 AI 算力 基础设施建设,数通 DCI 市场需求强劲,25 年公司 400G/600G DCI 板卡实现批量交付且 完成 C6T+L6T 系统部署,800G 板卡年内开启小批量交付,并启动 1.6T 板卡预研。公司在 DCI 市场卡位核心,保持高效的研发投入,随着数据中心集群规模扩大,10 万卡级算 力集群和 Scale-Across 等场景的落地,公司将受益全球维度的互联市场增量。 据公司 25 年半年报及投资者交流公告,公司聚焦硅基微秒级、纳秒级光交换产品,硅基 OCS 已获海外样品千万人民币级别订单,25 年仍将有超千亿人民币的样机订单。第二代 高维度 OCS 研发加速推进,目标 2026H1 推出样机。
腾景科技:光器件头部供应商,有望受益 OCS&CPO 需求释放。公司专注于研发、生产 和销售精密光学元组件、光纤器件及光测试仪器等产品,业务涵盖光通信、光纤激光、科 研、生物医疗、消费类光学、半导体设备等领域。 公司的武汉全资子公司已完成多款高速光引擎和高速光通信组件产品的样品生产并推进 客户验证。在 CPO 方面,公司正在推进 FAU 光纤阵列等 CPO 光互联组件产品的开发。 在 OCS 方面,公司根据不同客户的技术方案,提供精密光学元组件等产品。
瑞可达:连接器龙头,拓展高速铜连接市场。公司主要产品包括连接器、连接器组件和模 块等,下游应用领域集中在通信、新能源汽车、储能等领域,在光、电等信号和能量传输 领域深入布局。公司客户包括国内外知名运营商、头部汽车整车品牌、头部具身机器人企 业等。 公司为 AI 系统提供完整的解决方案,包括传输高速数据 400G,800G,1.6T 的 I/O 有源 及无源铜缆(AEC,ACC,DAC 等)、电源及电力连接器;PCIe 连接器等产品。2025 年 2 月公司与中际旭创合资设立苏州瑞创连接技术有限公司,公司持股 65%,子公司 112G、 224G AEC 等项目正在按进度进行产品研发和试制、样品交付和客户认证。公司凭借自身 优质产品力与旭创深度合作,有望突破海外算力客户,贡献新增量弹性。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。未来智库 - 官方网站
云服务器备案地区

发表评论
最近发表
标签列表