AI 超节点时代的交换机革命

（本文作者为半导体产业纵横，钛媒体经授权发布）

文 | 半导体产业纵横

AI 大模型参数规模持续增长，单卡算力与显存的物理上限，正倒逼 AI 训练集群规模持续扩容。在这场 AI 算力军备竞赛中，网络性能早已成为决定集群算力释放效率的关键。对于超大参数规模的 AI 模型而言，更高的网络带宽，能够直接大幅压缩模型训练的完成周期。

AI 算力释放的技术底座：RDMA

要突破 AI 集群的网络性能瓶颈，RDMA 技术已成为行业公认的解决方案，而这一切的起点，源于 GPU 通用计算时代的通信瓶颈破局。

GPU Direct RDMA 是 2009 年由 Nvidia 和 Mellanox 共同研发的软硬件协同创新技术。当时 GPU 已经从图形渲染转向通用计算（GPGPU），成为 HPC 的核心加速器。GPU 计算能力虽然在持续提升，但因为集群中不同节点之间的 GPU 间传输数据，仍需要 CPU 负责，通信存在瓶颈，所以 GPU 的计算能力的优势受其拖累不能完全发挥，从而导致集群整体效率不高。NVIDIA 当时清晰地认识到必须解决这个问题，所以开始与合作伙伴 Mellanox 一起探索 GPU 与网卡的直接通信的解决方案 GPU Direct over InfiniBand。后续该技术方案逐渐成熟，并于 2012 年随 Kepler 架构 GPU 和 CUDA 5.0 一起发布，并被正式命名为 GPU Direct RDMA。

在此之前，传统数据中心的数据传输，始终受困于 TCP/IP 架构的原生缺陷。在传统传输方案中，内存数据访问与网络数据传输分属两套语义集合，数据传输的核心工作高度依赖 CPU：应用程序先申请资源、通知 Socket，再由内核态驱动程序完成 TCP/IP 报文封装，最终通过 NIC 网络接口发送至对端。数据在发送节点需要依次经过 Application Buffer、Socket Buffer、Transport Protocol buffer 的多次拷贝，到达接收节点后，还要经过同等次数的反向内存拷贝，完成解封装后才能写入系统物理内存。

这种传统传输方式，带来了三个问题：一是多次内存拷贝导致传输时延居高不下；二是 TCP/IP 协议栈的报文封装全靠驱动软件完成，CPU 负载极高，其性能直接成为传输带宽、时延等性能的瓶颈；三是应用程序在用户态与内核态之间的频繁切换，进一步放大了数据传输的时延与抖动，严重制约网络传输性能。

RDMA（Remote Direct Memory Access，远程直接内存访问）技术，正是为破解上述痛点应运而生。它通过主机卸载与内核旁路技术，让两个应用程序能够在网络上实现可靠的直接内存到内存数据通信：应用程序发起数据传输后，由 RNIC 硬件直接访问内存并将数据发送至网络接口，接收节点的 NIC 则可将数据直接写入应用程序内存，全程无需 CPU 与内核的深度介入。

凭借这些特性，RDMA 已成为高性能计算、大数据存储、机器学习等对低延迟、高带宽、低 CPU 占用有严苛要求的领域，核心的互联技术之一。而 RDMA 技术协议的标准化，也为不同厂商设备的互联互通提供了统一规范，推动技术从概念走向规模化商用。目前，RDMA 主流实现方案分为三类：InfiniBand 协议、iWARP 协议，以及 RoCE 协议（含 RoCE v1 与 RoCE v2 两个版本）。

随着 AI 模型参数从数十亿级跃升至数万亿级，单 GPU 内存容量持续扩容的同时，服务器间的数据传输效率，已成为决定系统扩展能力、模型训练目标能否实现的关键要素。RDMA 技术的价值也愈发凸显，能否高效访问其他服务器的内存与资源，直接决定了系统的可扩展性，而直接访问远端内存的能力，能直接提升 AI 模型的整体训练性能。正是借助 RDMA 技术，数据才能快速送抵 GPU，最终有效缩短作业完成时间（Job Completion Time，简称 JCT）。

InfiniBand 和以太网之争

在 AI 智算网络的发展历程中，机柜间互联最早采用成熟的以太网方案，而随着低时延需求的升级，InfiniBand 凭借性能优势快速崛起。作为原生 RDMA 协议的代表，InfiniBand 由 NVIDIA 子公司 Mellanox 主导推动，能提供低于 2 微秒的极低传输时延，同时实现零丢包，堪称 RDMA 领域的性能领导者。

为了将 InfiniBand 的 RDMA 优势迁移至以太网生态，RoCE 协议应运而生。其中 RoCE v1 仅能在二层子网内运行，而 RoCE v2 通过 IP/UDP 封装实现了跨子网路由，大幅提升了部署灵活性，尽管约 5 微秒的时延仍高于原生 InfiniBand，却让以太网具备了支撑 AI 训练高带宽、低延迟需求的能力。

为了撼动 InfiniBand 在 AI 领域的主导地位，2025 年 6 月，博通、微软、谷歌等行业巨头联合推出 UEC 1.0 规范，旨在重构以太网协议栈，使其性能逼近 InfiniBand，标志着以太网对 InfiniBand 发起了全面反击。超以太网联盟（Ultra Ethernet Consortium，UEC）明确，UEC 1.0 规范能在包含网卡、交换机、光纤、电缆组成的全网络堆栈层级，提供高性能、可扩展、可互操作的解决方案，从而实现多供应商无缝集成，加速全生态创新。该规范不仅适配以太网与 IP 的现代 RDMA 能力，还支持数百万级设备的端到端可扩展性，同时彻底规避了供应商锁定的问题。

目前，阿里巴巴、百度、华为、腾讯等国内科技企业均已加入 UEC 联盟，共同推进标准落地。除了参与全球标准化建设，国内企业还在同步研发自主可控的横向扩展架构，均以低延迟、零丢包为核心目标，直接对标 InfiniBand 的性能表现。

从产业落地的维度来看，两条技术路线的优劣势十分清晰。RoCE v2 方案依托以太网架构，不仅具备 RDMA 高带宽、低时延的传输性能，还拥有极强的设备互联兼容性与适配性，部署灵活且成本优势显著。相比 InfiniBand，基于以太网的 RDMA 方案，在低成本、高可扩展性上拥有巨大优势。

网络可用性直接决定 GPU 集群算力的稳定性，而 AI 技术的爆发，正推动数据中心交换机向更高速率持续迭代。AI 大模型参数量的指数级增长，带来了算力需求的规模化提升，但大集群并不等同于大算力。为了压缩训练周期，大模型训练普遍采用分布式训练技术，而 RDMA 正是绕过操作系统内核、降低卡间通信时延的核心，目前主流落地的正是 InfiniBand 与 RoCE v2 两大方案。其中 InfiniBand 方案时延更低，但成本偏高，且供应链高度集中于英伟达。根据 Dell‘Oro Group 的预测，到 2027 年，以太网在 AI 智算网络的市场占比将正式超越 InfiniBand。

超节点爆发，高端交换机迎来黄金发展期

随着 AI 大模型参数规模迈入万亿量级，算力需求已从单纯 GPU 堆叠，转向全维度系统架构重构。受单芯片物理功耗密度、互连带宽及内存容量瓶颈制约，算力增长边际效益持续递减。当前研究与工程实践均表明，系统级协同架构（如高带宽域互联）是突破单芯片性能上限的主要技术路径，其根本动因在于单芯片物理极限已成为制约算力发展的核心瓶颈。

当模型规模远超单芯片算力与显存容量，传统分布式训练面临通信开销激增、算力利用率大幅下滑等难题。在此背景下，依托高速无损互联技术，将数十乃至上百颗 GPU 芯片逻辑整合为统一计算单元，形成对外等效的 “ 超级计算机”，已成为全球主流 AI 基础设施厂商与科研机构公认的下一代算力架构突破方向。

AI 超节点的爆发，为交换机市场打开全新增量空间。相较于传统服务器，AI 服务器新增 GPU 模组，需通过专用网卡与服务器、交换机实现高效互联，完成节点间高速通信。这使得 AI 服务器组网在传统架构基础上，新增后端网络（Back End）层级，单台服务器网络端口数量显著提升，直接拉动高速交换机、网卡、光模块、光纤光缆等全产业链需求。

与此同时，超节点规模化部署，加速网络架构横向扩展（Scale out）。万卡、十万卡乃至百万卡级别的超大集群组网，催生海量高速交换机需求。随着 AI 模型参数持续扩容，集群规模从百卡、千卡级快速向万卡、十万卡级跃迁，推动组网架构从 2 层向 3 层、4 层持续演进，进一步放大高速交换机市场缺口。

全球 AI 产业的高速发展，让 AI 集群网络对组网架构、网络带宽、网络时延提出了前所未有的严苛要求，也推动以太网交换机这一核心通信设备，朝着高速率、多端口、白盒化、光交换机等方向持续迭代升级。而以太网本身深厚的产业根基与庞大的生态厂商阵容，也让其在 AI 网络中的市场占比拥有持续提升的空间。尽管目前 InfiniBand 凭借低延迟、拥塞控制、自适应路由等机制，仍主导着 AI 后端网络市场，但随着以太网部署方案的持续优化，以及超以太网联盟的生态加速完善，未来以太网方案的市场占比将持续攀升，直接带动以太网交换机的需求增长。

全行业入局，国内外厂商抢滩 AI 交换机赛道

AI 交换机的巨大市场机遇，吸引了全球科技巨头与国内厂商的全面布局，从芯片到整机、从传统设备商到互联网企业，一场围绕 AI 交换机的技术与市场争夺战已然打响。

国际巨头中，英伟达的布局最为激进。其推出的 Spectrum-x 平台，是一套专为超大规模集群场景优化的以太网方案，凭借这一产品，英伟达仅用不到三年时间，便在交换机这一传统 IT 赛道实现了跨界突破。同时，英伟达已将下一代 Rubin AI 平台全面转向 CPO（共封装光学）架构，并宣布进入量产阶段，让 CPO 从实验室概念，正式成为未来 AI 数据中心的“ 标准配置”。

博通也在去年推出了全球首款 102.4 Tbps 交换机芯片 Tomahawk 6。该系列单芯片提供 102.4 Tbps 的交换容量，是目前市场上以太网交换机带宽的两倍。Tomahawk 6 专为下一代可扩展和可扩展 AI 网络而设计，通过支持 100G / 200G SerDes 和共封装光学模块（CPO），提供更高的灵活性。它提供业界最全面的 AI 路由功能和互连选项，旨在满足拥有超过一百万个 XPUs 的 AI 集群的需求。

国内传统设备厂商也快速跟进，接连推出旗舰级产品。

华为于 2025 年发布了两款旗舰产品：业界最高密的 128×800GE 100T 盒式以太交换机 CloudEngine XH9330，凭借行业领先的高密端口设计，突破了 AI 集群的规模上限；业界首款 128×400GE 51.2T 液冷盒式以太交换机 CloudEngine XH9230，助力企业打造绿色节能、超大规模的全液冷算力集群。

紫光股份旗下新华三，于 2024 年率先发布 1.6T 智算交换机 H3C S98258C-G，支持全光网络 3.0 解决方案，单端口速率突破 1.6T，整机交换容量达 204.8T，可满足 3.2 万台 AIGC 节点的通信需求。该产品搭载自研智算引擎，时延可低至 0.3 微秒，通过了谷歌等国际客户的验证，成为其 OCS 整机核心供应商。此外，公司还推出了全球首款 51.2T 800G CPO 硅光数据中心交换机，为 1.6T 产品的技术迭代奠定了基础。

锐捷网络完成了基于 CPO 技术的 51.2T 交换机商用互联方案演示，该方案凭借超高集成度、显著的能效提升与可维护性设计，完美适配 AI 训练及超大规模计算集群的高速互联需求，为未来 800G 和 1.6T 网络升级提供了可行路径。其 51.2T CPO 交换机采用博通 Bailly 51.2Tbps CPO 芯片，在 4RU 空间内实现了 128 个 400G FR4 光交换端口，大幅提升了设备端口密度与带宽容量，核心亮点在于通过光引擎与交换芯片的共封装，大幅缩短电互联路径，降低信号衰减与传输功耗。

中兴通讯推出了国产超高密度 230.4T 框式交换机，以及全系列 51.2T/12.8T 盒式交换机，性能处于行业领先水平，已在运营商、互联网、金融等领域的百/千/万卡智算集群实现规模商用。

除了传统交换机厂商，互联网企业也纷纷下场，开启了自研交换机的进程，成为赛道中不可忽视的重要力量。

腾讯早在 2022 年便启动了 CPO 交换机的研发，同年推出并点亮业界首款 25.6T CPO 数据中心交换机——Gemini。该产品集成 12.8T 光引擎，提供 16 个 800G 光接口，剩余 12.8T 交换容量通过面板 32 个 QSFP112 可插拔接口提供。

字节跳动在火山引擎正式上线 102.4T 自研交换机，以此支撑新一代 HPN 6.0 架构，可满足十万卡级 GPU 集群的高效互联需求。该交换机实现全端口 LPO 支持，在 4U 空间内部署了 128 个 800G OSFP 端口。

阿里巴巴在云栖大会展出了自研的 102.4T 国产交换机，率先将 3.2T NPO 技术应用于新一代国产四芯片交换机。该设备单机集成 4 颗 25.6T 国产交换芯片，总交换容量达 102.4T，还可通过升级至 4×102.4T 芯片，平滑演进至 409.6T 平台。

相比线性驱动可插拔光模块（LPO），近封装光学（NPO）能提供更高的带宽密度，同时降低对主芯片 SerDes 性能的要求，更利于产业生态发展；而相比共封装光学（CPO），NPO 采用标准 LGA 连接器，保留了光模块的开放解耦特性，避免了主芯片与光引擎的绑定，更易被终端用户采纳。

为什么互联网企业要做交换机？

互联网企业纷纷下场自研交换机，并非偶然，而是技术趋势与市场需求的共同驱动。

技术层面，交换机白盒化的发展，为互联网企业自研提供了基础。白盒交换机实现了硬件与软件的解耦，硬件由开放化组件构成，软件则可由用户或第三方自由选择、定制，具备高灵活性、高可扩展性、低采购与运维成本的优势，目前已在互联网厂商与运营商网络中广泛应用，产业生态日趋成熟。锐捷网络作为白盒交换机领域的早期布局者，便与阿里、腾讯、字节跳动等互联网企业深度合作，通过 JDM（联合设计制造）模式参与下一代交换机研发，2024 年接连中标多家头部互联网客户的研发标，推动白盒交换机在互联网数据中心的规模化部署。而白盒交换机的软硬件解耦特性，大幅降低了自研的技术门槛，也成为大型互联网企业降低建网成本的关键。

市场层面，超大规模数据中心运营商面临着与传统企业完全不同的网络需求：一方面，阿里、腾讯、字节等企业拥有数万甚至数十万级的服务器规模，对网络的可扩展性、可运维性有极致要求；另一方面，AI 训练集群尤其是万卡级 GPU 集群，对网络的低延迟、高带宽有着严苛的定制化需求。传统交换机厂商提供的标准化产品，难以完全匹配这些个性化、极致化的业务需求，最终促使互联网企业走向自研之路。

而自研交换机不仅能深度适配自身业务场景，实现网络能力的定制化优化，又能大幅降低集群建设的总体拥有成本（TCO），在 AI 算力军备竞赛中，掌握网络底层能力的主动权。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

AI 超节点时代的交换机革命

专业财经网站

方舟日历

2026 年 5 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

AI 超节点时代的交换机革命

AI 算力释放的技术底座：RDMA

InfiniBand 和以太网之争

超节点爆发，高端交换机迎来黄金发展期

全行业入局，国内外厂商抢滩 AI 交换机赛道

为什么互联网企业要做交换机？

专业财经网站

方舟日历

标签