中科曙光发了个「标配版」超节点，AI 推理算力的未来形态？

（本文作者为 TechPulse，钛媒体经授权发布）

OpenClaw 突然爆火，既是 AI Agent 赛道的一次必然出圈，也是 AI 推理算力市场的一场压力测试。

在 2026 年中关村论坛上，中科曙发布了世界首个无线缆箱式超节点 scaleX40，在此之前，超节点是动辄数百卡甚至千卡规模的庞然大物，包括中科曙光发布的 scaleX640、英伟达的 NVL72、华为的昇腾 384 等。

这些顶级超节点专为超大规模模型训练而生，性能强悍，但部署门槛极高，定制化机柜、复杂的线缆连接、专业的运维团队，动辄数千万甚至上亿的投资，让它们注定只能服务于少数头部玩家，譬如互联网巨头或者大型央国企等。

在超节点的“ 反面”，是推理市场上传统且主流的 8 卡 GPU 服务器。这类产品部署灵活、成本可控，但在面对快速升级的 AI 推理算力需求时，性能显得有些不足。

"8 卡机在当前来看已经远远落伍了，即便是把互联规模扩展到 16 卡，仍然满足不了模型推理服务发展的步伐。"中科曙光高级副总裁李斌表示，"支撑 AI 发展的算力基础设施，逐渐从原来的'算力工厂'变成了'Token 工厂'。算力系统的主要服务对象，已经从过去支撑模型训练为主，转变到现在以服务于推理为主。"

在训练时代，评价算力系统的核心指标是有多少算力；而在推理时代，更关键的指标变成了"能以多经济的成本产出 Token"。

图片来自 AI 生成

AI 需求分化，推理算力远未满足

从当前市场需求来看，AI 算力结构正在发生分层变化。根据行业机构预测，全球 AI 基础设施投入仍将保持较快增长，但新增需求正逐步从超大规模集群，转向企业级和行业应用场景。

在这一趋势下，算力配置的重点不再单纯追求规模上限，而是更加关注性能、成本与灵活性的平衡。业内普遍共识，几十卡规模已足够满足大多数行业场景模型训练、推理及开发测试的算力需求，这也是兼顾效率与投入的最大公约数区间。

但是，AI 应用层的需求演化太快，包括像 OpenClaw 为代表的 AI Agent 的爆火，在改变传统行业应用的同时，对当下算力供给侧也带来了系统重构的需求。

第一是通信的瓶颈，现在 MoE 模型让通信成为提升算力利用率的核心卡点，尤其是专家分布的不确定性，导致大量跨卡、跨机通信，直接击穿了传统 8 卡服务器的算力架构。

第二是显存的瓶颈，上下文窗口持续扩展，OpenClaw 所需的长上下文记忆能力，也让大显存、KV Cache 的需求日渐激增，这同样是传统 8 卡服务器难以突破的局限。

第三是算力利用率的瓶颈，算力利用率和推理落地成本近乎反比，传统集群普遍存在算力利用率不足的问题，核心挑战不是单纯堆硬件，而是通过硬件架构创新，搭配配套系统工程、优化工程的协同发力，实现系统效能和有效算力的双重提升。

第四则是生态的瓶颈，国产算力生态体系复杂、厂商众多、产业链漫长，产业协作难度不小，这就需要借助开放计算架构，打通芯片、模型、应用等全产业链上下游，打造开放易用、开箱即用、经济普惠的算力底座。

中科曙光希望用 40 卡的“ 标配” 超节点回应市场。"40 卡这个甜点区，是我们跟各种客户调研摸索出来的。"中科曙光副总裁李柳表示，当前主流模型的参数规模和使用场景，32-40 卡已经能够覆盖大多数行业需求，同时又能兼顾成本与性能的平衡。

scaleX40 单节点集成 40 张 GPU，总算力超过 28PFLOPS（FP8 精度），HBM 显存容量超过 5TB，访存带宽超过 80TB/s。系统可靠性提升至 99.99%。

scaleX40 的规模配置，既具备支持大模型训练和推理的能力，又不会带来过重的投入压力，它向下可兼顾 32 卡，满足中小规模训练、推理和开发测试；向上，它可以通过扩展，组成更大规模集群。

李斌算了一笔账："传统 5 台 8 卡机器叠加各类成本的投入，与 scaleX40 基本相当，但 scaleX40 可以将训练性能提升 120%，推理性能最高提升至 330%。"

从 DeepSeek 到 OpenClaw，新的算力转折点

"Token 需要算力来做产出，但评价的维度和指标变得更多了。"李斌认为，"对于普通用户，关注的是响应速度，问了一个问题，它能不能很快反馈回来；对于算力系统的运营者，要考虑能同时支撑多少用户的并发访问，同时满足基本的使用体验。"

智源研究院 AI 框架研发部门负责人敖玉龙也提出，"未来对算力供给方来说，关键指标是如何将算力转换成有效的 Token，而不是无效的 Token。谁能把这个成本降下去，谁才是真正的赢家。"

scaleX40 的设计围绕这些新需求展开。144G 大显存支持长上下文窗口，多级 KV Cache 缓存机制满足推理场景的大显存需求，40 卡高带宽域的一级互联将专家通信的 out-to-out 流量收揽在单个节点内。这些特性都是在控制成本的前提下，最大化单位算力的 Token 产出效率。

无线缆箱式设计也是 scaleX40 一个很大的差异化。传统超节点的一个核心痛点在于部署复杂度。以英伟达 NVL72 为例，其采用铜缆连接方案，机柜之间需要大量的线缆互联，不仅对机房环境要求苛刻，部署周期长，而且后期运维的故障率也居高不下。

scaleX40 的解法和英伟达于今年 GTC 大会公布的最新解决方案相似，通过总线技术实现 Scale-up 扩展，计算节点与交换节点采用无线缆正交架构直接对插。

这一设计带来了多重收益，首先，总线技术性能达到传统 NDR 网络的 10 倍以上，支持内存语义和显存统一编址；其次，一层组网将 P2P 单向时延降至百纳秒以内，相比二层组网时延降低 30% 以上，故障率降低 30%-50%。

其次，scaleX40 采用标准 19 英寸箱式设计，单机高度仅 16U，可以直接放入主流机柜，兼容现有数据中心环境，无需额外改造。

"过去很多产品要么柜子比较大，要么非标准化，要么机房改造非常复杂。"李柳说道，"scaleX40 可以放在标准机柜里面，接标准机房的供电和冷却设备，部署和使用门槛大大降低。"

中国电信研究院智算网络技术负责人王子潇也表示："以超节点形态提供推理服务，性能比传统单机 8 卡提升约 2.6 倍。超节点的‘ 开箱即用’ 能力显著增强，Scale-out 网络的配置复杂度有数量级降低，对于整个行业规模化应用非常有意义。"

更深层来看，scaleX40 的发布也折射出国产算力生态的成熟。从芯片到系统软件，从存储到网络，从算子库到通信库，一条完整的产业链正在形成。正如李斌所言："我们在整个国内计算 AI 生态里，从芯片到系统软件，到上层模型和应用，在做垂直的跨层协同，通过垂直方向的耦合和协同去发挥更好的效率。"

当超节点开始以更简单的方式被部署和使用，当千行百业都能以合理的成本获得高端算力能力，中国 AI 的规模化应用，或许才真正迈出了关键一步。（本文作者 | 张帅，编辑 | 杨林）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

中科曙光发了个「标配版」超节点，AI 推理算力的未来形态？

专业财经网站

方舟日历

中科曙光发了个 「标配版」 超节点，AI 推理算力的未来形态？

AI 需求分化，推理算力远未满足

从 DeepSeek 到 OpenClaw，新的算力转折点

专业财经网站

方舟日历

标签

中科曙光发了个「标配版」超节点，AI 推理算力的未来形态？