• 隐私政策
  • 联系我们
  • 关于我们
2026 年 5 月 8 日 星期五
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 商业动态

中科曙光发了个 「标配版」 超节点,AI 推理算力的未来形态?

by 聚赢方舟
1 月 ago
in 商业动态
Reading Time: 1 min read
A A
分享至微博分享给朋友


ADVERTISEMENT

(本文作者为 TechPulse,钛媒体经授权发布)

OpenClaw 突然爆火,既是 AI Agent 赛道的一次必然出圈,也是 AI 推理算力市场的一场压力测试。

在 2026 年中关村论坛上,中科曙发布了世界首个无线缆箱式超节点 scaleX40,在此之前,超节点是动辄数百卡甚至千卡规模的庞然大物,包括中科曙光发布的 scaleX640、英伟达的 NVL72、华为的昇腾 384 等。

这些顶级超节点专为超大规模模型训练而生,性能强悍,但部署门槛极高,定制化机柜、复杂的线缆连接、专业的运维团队,动辄数千万甚至上亿的投资,让它们注定只能服务于少数头部玩家,譬如互联网巨头或者大型央国企等。

在超节点的“ 反面”,是推理市场上传统且主流的 8 卡 GPU 服务器。这类产品部署灵活、成本可控,但在面对快速升级的 AI 推理算力需求时,性能显得有些不足。

"8 卡机在当前来看已经远远落伍了,即便是把互联规模扩展到 16 卡,仍然满足不了模型推理服务发展的步伐。"中科曙光高级副总裁李斌表示,"支撑 AI 发展的算力基础设施,逐渐从原来的'算力工厂'变成了'Token 工厂'。算力系统的主要服务对象,已经从过去支撑模型训练为主,转变到现在以服务于推理为主。"

在训练时代,评价算力系统的核心指标是有多少算力;而在推理时代,更关键的指标变成了"能以多经济的成本产出 Token"。

图片来自AI生成

图片来自 AI 生成

AI 需求分化,推理算力远未满足

从当前市场需求来看,AI 算力结构正在发生分层变化。根据行业机构预测,全球 AI 基础设施投入仍将保持较快增长,但新增需求正逐步从超大规模集群,转向企业级和行业应用场景。

在这一趋势下,算力配置的重点不再单纯追求规模上限,而是更加关注性能、成本与灵活性的平衡。业内普遍共识,几十卡规模已足够满足大多数行业场景模型训练、推理及开发测试的算力需求,这也是兼顾效率与投入的最大公约数区间。

但是,AI 应用层的需求演化太快,包括像 OpenClaw 为代表的 AI Agent 的爆火,在改变传统行业应用的同时,对当下算力供给侧也带来了系统重构的需求。

第一是通信的瓶颈,现在 MoE 模型让通信成为提升算力利用率的核心卡点,尤其是专家分布的不确定性,导致大量跨卡、跨机通信,直接击穿了传统 8 卡服务器的算力架构。

第二是显存的瓶颈,上下文窗口持续扩展,OpenClaw 所需的长上下文记忆能力,也让大显存、KV Cache 的需求日渐激增,这同样是传统 8 卡服务器难以突破的局限。

第三是算力利用率的瓶颈,算力利用率和推理落地成本近乎反比,传统集群普遍存在算力利用率不足的问题,核心挑战不是单纯堆硬件,而是通过硬件架构创新,搭配配套系统工程、优化工程的协同发力,实现系统效能和有效算力的双重提升。

第四则是生态的瓶颈,国产算力生态体系复杂、厂商众多、产业链漫长,产业协作难度不小,这就需要借助开放计算架构,打通芯片、模型、应用等全产业链上下游,打造开放易用、开箱即用、经济普惠的算力底座。

中科曙光希望用 40 卡的“ 标配” 超节点回应市场。"40 卡这个甜点区,是我们跟各种客户调研摸索出来的。"中科曙光副总裁李柳表示,当前主流模型的参数规模和使用场景,32-40 卡已经能够覆盖大多数行业需求,同时又能兼顾成本与性能的平衡。

scaleX40 单节点集成 40 张 GPU,总算力超过 28PFLOPS(FP8 精度),HBM 显存容量超过 5TB,访存带宽超过 80TB/s。系统可靠性提升至 99.99%。

scaleX40 的规模配置,既具备支持大模型训练和推理的能力,又不会带来过重的投入压力,它向下可兼顾 32 卡,满足中小规模训练、推理和开发测试;向上,它可以通过扩展,组成更大规模集群。

李斌算了一笔账:"传统 5 台 8 卡机器叠加各类成本的投入,与 scaleX40 基本相当,但 scaleX40 可以将训练性能提升 120%,推理性能最高提升至 330%。"

从 DeepSeek 到 OpenClaw,新的算力转折点

"Token 需要算力来做产出,但评价的维度和指标变得更多了。"李斌认为,"对于普通用户,关注的是响应速度,问了一个问题,它能不能很快反馈回来;对于算力系统的运营者,要考虑能同时支撑多少用户的并发访问,同时满足基本的使用体验。"

智源研究院 AI 框架研发部门负责人敖玉龙也提出,"未来对算力供给方来说,关键指标是如何将算力转换成有效的 Token,而不是无效的 Token。谁能把这个成本降下去,谁才是真正的赢家。"

scaleX40 的设计围绕这些新需求展开。144G 大显存支持长上下文窗口,多级 KV Cache 缓存机制满足推理场景的大显存需求,40 卡高带宽域的一级互联将专家通信的 out-to-out 流量收揽在单个节点内。这些特性都是在控制成本的前提下,最大化单位算力的 Token 产出效率。

无线缆箱式设计也是 scaleX40 一个很大的差异化。传统超节点的一个核心痛点在于部署复杂度。以英伟达 NVL72 为例,其采用铜缆连接方案,机柜之间需要大量的线缆互联,不仅对机房环境要求苛刻,部署周期长,而且后期运维的故障率也居高不下。

scaleX40 的解法和英伟达于今年 GTC 大会公布的最新解决方案相似,通过总线技术实现 Scale-up 扩展,计算节点与交换节点采用无线缆正交架构直接对插。

这一设计带来了多重收益,首先,总线技术性能达到传统 NDR 网络的 10 倍以上,支持内存语义和显存统一编址;其次,一层组网将 P2P 单向时延降至百纳秒以内,相比二层组网时延降低 30% 以上,故障率降低 30%-50%。

其次,scaleX40 采用标准 19 英寸箱式设计,单机高度仅 16U,可以直接放入主流机柜,兼容现有数据中心环境,无需额外改造。

"过去很多产品要么柜子比较大,要么非标准化,要么机房改造非常复杂。"李柳说道,"scaleX40 可以放在标准机柜里面,接标准机房的供电和冷却设备,部署和使用门槛大大降低。"

中国电信研究院智算网络技术负责人王子潇也表示:"以超节点形态提供推理服务,性能比传统单机 8 卡提升约 2.6 倍。超节点的‘ 开箱即用’ 能力显著增强,Scale-out 网络的配置复杂度有数量级降低,对于整个行业规模化应用非常有意义。"

更深层来看,scaleX40 的发布也折射出国产算力生态的成熟。从芯片到系统软件,从存储到网络,从算子库到通信库,一条完整的产业链正在形成。正如李斌所言:"我们在整个国内计算 AI 生态里,从芯片到系统软件,到上层模型和应用,在做垂直的跨层协同,通过垂直方向的耦合和协同去发挥更好的效率。"

当超节点开始以更简单的方式被部署和使用,当千行百业都能以合理的成本获得高端算力能力,中国 AI 的规模化应用,或许才真正迈出了关键一步。(本文作者 | 张帅,编辑 | 杨林)

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 5 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 4 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。