• 隐私政策
  • 联系我们
  • 关于我们
2026 年 6 月 25 日 星期四
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 商业动态

英伟达回归遇阻,谁能替代 H20?

by 聚赢方舟
9 月 ago
in 商业动态
Reading Time: 2 mins read
A A
分享至微博分享给朋友


ADVERTISEMENT

文 | 镜相工作室,作者 | 黄依婷,编辑 | 卢枕

9 月,国内入秋,气温骤降,英伟达重回中国市场的步伐也有些凝滞。

两个月前,仲夏之时,英伟达创始人黄仁勋穿着皮衣落地北京,带来 H20 芯片在中国市场“ 解禁” 的消息。但没过多久,又传来 H20 停产的风声。

作为中国市场定制的“ 特供芯片”,H20 深陷“ 后门” 疑云,被质疑“ 既不安全也不先进”,市场需求疲软。不愿意放弃中国市场的英伟达,计划推出性能更强的 B30A 芯片,以技术优势重建市场信心。

H20 禁售加上“ 后门” 疑云,英伟达的空窗期成了国产厂商补位的良机。这半年来,华为、寒武纪等大力推广自家芯片,在政务云等领域市占率飙升,一些科技大厂也开始批量采购国产芯片。

在黄仁勋的最新访谈里,他提及中国在 AI 芯片上落后两三年的说法,驳斥说:“ 得了吧,他们只落后我们几纳秒。” 话里话外流露出一种迫切,希望美国放开管制,让英伟达重回中国。

眼下,英伟达回归遇阻,腾出来的市场空白,都有哪些国产 AI 芯片厂商竞逐?谁有机会率先取代 H20?国产 AI 芯片厂商追赶英伟达的路上还有哪些阻碍?

谁在竞逐英伟达的遗留市场?

过去,大多数公司采购算力芯片时,首选必定是英伟达。从生成式 AI 爆发至今,英伟达 GPU 凭借卓越的性能、稳定的驱动和完善的 CUDA 生态,筑起强大的护城河。

据 TechInsights 数据,在 GPU 市场,2023 年全球应用于智算中心的 GPU 总出货量达到了 385 万颗,其中,英伟达的市场份额接近 98%。

垄断性的市场地位,使英伟达成为压在国内外科技大厂心头的大山。在国外,微软、谷歌、亚马逊都在一边狂买英伟达芯片,一边自己造芯;而在国内,受限于政策禁令,AI 公司无法获得先进的英伟达芯片,随时面临断供风险,只能寻找国产替代方案。

好消息是,英伟达留给国产厂商的空间足够大,能容纳多家公司同场竞逐。

今年二季度,受禁售 H20 影响,英伟达中国区营收只有 27.69 亿美元,比去年同期的 37 亿美元下降 24.49%。去年全年,英伟达中国区营收 171.08 亿美元。业绩会上,黄仁勋也预测中国市场年增长率大约 50%,光今年就可能有 500 亿美元的商机。

这数百亿美元的市场,英伟达目前只能干着急。在三季度的业绩指引上,英伟达没有假设任何对华出口 H20 的情形,而这也是中国公司的好机会。

在竞逐 H20 遗留市场的公司里,最被看好的公司是华为和寒武纪。

从单卡性能来看,华为昇腾 910B/C,算力已超过英伟达 H20。除华为外,据行业自媒体“ 半导体综研” 整理,FP16 算力能达到 300TFLOPS(每秒万亿次浮点运算) 以上的国产芯片,只有寒武纪的思元 590;壁仞科技在 2022 年推出的 BR100,其 FP16 算力能达到 1024TFLOPS,但因受到制裁无法量产。其他如百度昆仑芯、阿里平头哥、摩尔线程等自研主流产品都已经接近 H20 水平。

当然,国产芯片的目标不是阉割过的 H20,最先进的国产 GPU 依旧落后英伟达最新产品两代,算力差距约落后 3 倍。但至少,逐渐替代昂贵但不先进的 H20 已经具备可行性。

除了技术追赶上来,外部环境也在变好,发展国产算力的政策扶持不断,互联网巨头和运营商们纷纷加码算力资本开支,为国产 AI 芯片打开了市场空间。

今年以来,国内 AI 芯片厂商业绩突飞猛涨。短暂成为 A 股“ 股王” 的寒武纪,今年上半年收入 28.81 亿元,同比暴涨了 4348%,首次扭亏为盈,净利润 10 个亿。

华为的大单也源源不断。据行业调研报告,今年昇腾 910B 全年计划出货约 40 万颗,客户主要是运营商和地方算力中心;910C 计划出货 30 万颗,以互联网大厂为主。不久前的华为全联接大会上披露,华为新推出的 CloudMatrix 384 超节点累计部署 300 多套。

阿里平头哥、百度昆仑芯这两家互联网巨头旗下的芯片公司,也有着稳定的内部需求和丰富的应用场景,在充沛的资金下能够快速迭代产品,再反哺互联网大厂的云计算和 AI 业务;摩尔线程、沐曦股份、壁仞科技等新锐也在参与市场竞逐,这些创业公司在技术创新、兼容性设计、市场定位上以灵活见长。

摩尔线程在其 IPO 报表中披露,2025 年上半年营收 7.02 亿元,正在洽谈的 AI 智算领域合同超过 17 亿元,其还与中国移动签署过万卡级合作项目,封装订单规模超 10 亿元。

沐曦股份也曾连续中标两份 AI 训推一体机大单,金额达 14.88 亿元;截至 2025 年 8 月,其在手订单 (不含税) 为 11.4 亿元,客户涵盖新华三、算丰、汇天网络等。

拿下订单意味着国产 AI 芯片进入到技术迭代和商业变现的良性循环中。摩根士丹利在其最新报告 《中国人工智能:沉睡的巨人觉醒》 中预测,在外部压力下,中国已全力迈向完全独立,并正在以比预期更快的速度构建自给自足的生态系统,中国人工智能芯片自给率将从去年的 34% 飙升至 2027 年的 82%。

模仿英伟达,还是另走一条路?

追赶英伟达,在一两年以前还是遥不可及的事情。

摆在国产厂商面前的有几座难以逾越的大山:制程优势、供应链稳定性、软件生态。

即便是最先进的国产 AI 芯片,与英伟达的最新产品都有两代的差距,昇腾 910C 单卡 BF16 算力只相当于英伟达 GB200 单卡的 31%。根本原因在于制程落后—— 华为只能用中芯国际的 7nm 多重曝光工艺 (近似 7nm 但良率很低),但英伟达可以用台积电的 3nm 工艺。

国产厂商也面临着供应链不稳定的问题,台积电的良率高达 80%,产量稳定,成本可以随着产能爬坡不断降低,而中芯国际 7nm 工艺良率只有 30% 多。另外一个风险是,地缘摩擦对芯片行业的影响不确定,比如壁仞科技的高端芯片 BR100 由于台积电中止代工,迟迟无法量产。

制程问题还可以找到替代方案,但软件生态没有英伟达十几年的积累,很难在短时间内追赶。国内某机器人公司 CTO 王枫告诉我们,使用 GPU 产品最重要的是考虑工具链的完整性,比如 GPU 之间的互联技术、框架的兼容性、并行计算的编程模型平台。这恰恰是英伟达耗时十多年筑起的高墙。

英伟达生态核心是 CUDA,它就像底层的 Windows 操作系统,全球有 400 多万开发者为它构筑加速库、主流框架和大模型,但 CUDA 只能在英伟达芯片上使用,迁移到其他芯片上就要重写代码,光人力和测试成本就高达数千万元。

因此,生态是英伟达最大的底气。以被阉割的 H20 为例,英伟达降低了 H20 的算力,只有 H100 的 15%,但是保留了 HBM3 显存和 NVLink 技术,就是想用“ 低性能+强生态” 稳住市场地位,让中国公司买更多卡来满足需求。

在硬件性能、软件生态和供应链都落后的情况下,国产厂商根据自身能力和市场需求,走上了不同的追赶路线。

华为是受限最多的一家,但自身有着非常好的产业基础和技术能力,因此选择了“ 全栈自研”,从芯片、软件、协议到服务器、交换机、存储等,全部自己做。

制程被卡脖子,华为就把两颗 910B 芯片封装在一起使算力翻倍;HBM 存储技术被卡脖子,华为就自研 HBM;卡间互联速率慢,华为就研发对标 NVLink 的灵衢 UB。这些系统级的优化创新避开了制程限制,解决了单卡算力差的问题。

质量不够,数量来凑。沿着这个思路,把很多芯片、内存、网卡像“ 拼乐高” 一样堆叠在一起,用高速线缆传输数据,就是华为推出的“ 超节点技术+集群战略”,代表性产品 CloudMatrix 384 超节点集群,BF16 算力总和超过了英伟达 NVL72 系统。

华为也在培育生态。想让人用自家的芯片,就得让黏性超高的 CUDA 开发者和应用厂商迁移过来,这需要分两步,第一步是让自家芯片可以兼容 CUDA,第二步是向他们提供基于自家生态的工具和框架。

华为推出的异构计算架构 CANN 对标 CUDA,已经能兼容 80% 的 CUDA API,支持 85% 的 CUDA 算子自动转换,但转换后性能会损耗 15%-20%;CANN 还能兼容 PyTorch、TensorFlow 这些主流框架,华为也自研并开源了 MindSpore 全场景人工智能计算框架,开放灵衢互联 2.0 协议规范,试图吸引更多开发者共同完善生态。

华为做“ 大而全”,一边模仿一边自研,多数国内厂商则只能做“ 小而美”,从垂直、细分市场切入,要么兼容英伟达,用性价比撬动客户,要么针对特定需求做定制芯片。

国产厂商最常见的一种做法是“NV 兼容”,通过中间件把现有 CUDA 代码映射到国产芯片指令集,让硬件“ 听懂” 开发者的意图。芯片使用者可以在不大幅重写代码的前提下,把工作任务迁移到国产芯片上运行,降低了使用和切换的门槛。这种做法是市场导向,先靠模仿打开市场,站稳脚跟,让自己活下去,后面才有机会发展自己的生态。

昆仑芯和华为都在验证类似方案,且在一定程度上获得了市场认可。2025 年 8 月下旬,中国移动 2025 年至 2026 年人工智能通用计算设备 (推理型) 集中采购项目中,百度昆仑芯在“ 类 CUDA 生态” 标包中几乎包揽前三个分项的头名,总中标订单规模达到十亿级。

做定制芯片的佼佼者是寒武纪。与英伟达所做的通用 GPU 不同,寒武纪的 AI 芯片属于 ASIC(专用集成电路),可以应用于云服务器、边缘计算设备、终端设备上,在对延迟、功耗和成本敏感的场景中,展现出更高的性价比。

不管是兼容模仿,还是全栈自研,都是在用自己最优势的能力,在英伟达的夹缝里寻找突破口,这条路注定坎坷。

追赶英伟达,是漫漫长路

硬件和软件都在缩小差距,但要让市场相信国产厂商的产品可用,是一个极其艰难的过程,尤其对那些已经使用英伟达芯片的开发者。

一个已经在英伟达 GPU 上训练好的大模型,要搬到国产 AI 芯片上运行,中间有两道坎。

第一道坎叫算子对齐。过去十几年,英伟达和全球开发者用 CUDA 写下了海量的算子库。要迁到国产芯片上,就得把一个个算子翻译成国产芯片能听懂的语言。这不是简单的复制粘贴,而是成千上万条代码的“ 逐句翻译”,需要大量人力和时间。

第二道坎是分布式重构。大模型训练常常需要几百上千张卡一起算,英伟达有自己成熟的沟通协议,H20 的 NVLink 带宽是昇腾 910B 的 2.25 倍,训练万亿参数大模型时,多卡协同效率能高 10%-15%。这在千亿级模型训练里,可能差好几周时间。

有机器人开发经历、目前正从事芯片研发工作的张振尧表示:“ 在迁移顺利的情况下,芯片硬件性能能发挥到 70% 到 80%;如果算子勉强适配,可能只有 30% 到 40%。” 这也是为什么即便国产芯片在参数表上标注的性能比肩英伟达,真正跑起来却常常不如预期。

王枫的经验印证了这一点。他所在的机器人公司曾经长期使用英伟达 GPU,从 4090、5090 到 H100、H20 都有涉猎。两年来,随着英伟达芯片价格高企、获取困难,他们开始尝试华为昇腾的云端算力。

真正让他焦虑的,并非单纯的硬件,而是新平台、新架构带来的不确定性。英伟达 CUDA 深度绑定在硬件里,几乎所有主流的机器学习框架都得跟它打交道。比如开发者们常用的 PyTorch,对 CUDA 的支持是最全面的,两者无缝衔接,用起来又快又稳定。

王枫曾尝试用华为芯片跑 Llama 等比较流行的几个模型,几乎每个模型都需要华为单独适配后才有可能在它的芯片上运行,这直接导致模型更新滞后。华为芯片目前只适配了 160 多种模型,而在英伟达的芯片上可以直接跑几万种模型。

华为分别推出了对标产品,但在王枫看来,如果没有明显的优势和终端市场需求,这些产品很难撬动市场。这就像平面设计师对 Photoshop、会计师对金蝶软件的依赖,几十年如一日,已经固化成行业习惯,不是所有人都会学习新技术,能学习的也会考虑到机会成本。

中小开发者考虑易用性,对于大公司,整体迁移的成本更是天价。互联网大厂现有的算力基础设施大部分是基于英伟达架构,要是全换成国产,IDC 的供电系统、网络拓扑等底层架构都得改造,改造成本能达到硬件采购价的 2-3 倍。

由于 CUDA 生态更成熟,英伟达集群的运维人力成本也要低很多,而华为集群由于芯片制程问题,体积更大,规模化部署还要额外投入数倍的散热、电力和机房空间成本。

制程问题也造成国产芯片采购成本更高,且供不应求。但由于 H20 的安全问题和断供风险,国产芯片 to G 需求很大,to B 的需求也在增长,迁移是不得已的事情,厂商和客户需要共度时艰。

相比技术和生态上短时间难以弥补的巨大差距,国产厂商更容易发力的地方,是周到的服务和更有吸引力的价格。

张振尧回忆,使用英伟达芯片时,遇到问题只能从开发者论坛、社区的公开文档找答案,很难获得官方工程师的支持,“ 英伟达的支持体系是很成熟的,但同时也是分层的,不对我们这样的小客户开放”。

相比之下,和国产芯片供应商接触时,他能直接和原厂工程师反馈问题,对方会派两三个工程师和他们一起去调试,有时候还会拉会,出新的版本给他们做测试,愿意为客户解决一些问题。他说,这在英伟达是不可能发生的。

算力芯片研发人员唐诗 (化名) 也有类似感受:“ 国内芯片卖出去,基本都得有工程师驻场维护,协同客户上线业务,进行开发。” 这样的故事也曾发生在华为。据 36 氪报道,华为联合讯飞发布“ 星火一体机” 的背后,是不惜人力成本,调配了几百名工程师下场帮讯飞调校参数。

在不惜成本的人力投入下,一定程度上弥补了生态和性能的欠缺,让国产厂商撕开了一道口子。短期内,在推理场景和边缘计算方面,国产芯片已经展现出一定的成本优势,但在训练领域,尤其是训练千亿参数以上的大模型,H20 还有比较强的生态和技术优势,暂时还没法被替代。国产芯片还需要两到三年的技术迭代,也需要下游的封装、制造环节同步突围。

产业链上下游整体进步,今年 DeepSeek-R1 模型的发布就是一个很好的例子。在这之前,大多数可被使用的开源模型来自美国,从底层适配开始就很难与中国硬件做好兼容。DeepSeek-R1 发布后,中国在模型和硬件上有了同时可用的方案。

8 月下旬发布的 DeepSeek-V3.1,也针对国产芯片做了优化。不久前,腾讯也宣布已全面适配主流的国产芯片,并希望通过异构计算平台整合多类芯片,提供高性价比的 AI 算力解决方案。越来越多客户加入到国产芯片阵营,替代的速度也会越来越快。

从服务到迁移,从生态到工艺,国产 AI 芯片厂商正经历着一场艰苦的追赶战。他们没有捷径,只能靠人力投入去弥补生态差距,用长期的技术迭代去对冲硬件短板,再忍受工艺成熟之前的高昂成本。这是一个注定不会轻松的过程,是一次软硬件、生态和市场的再造。距离真正替代 H20,国产厂商们还有很长的路要走。

参考资料

36 氪:《围剿英伟达丨深氪》

新浪财经:《英伟达最新特供芯片 RTX 6000D 需求疲软,国内厂商投入自研 AI 芯片》

人民日报:《H20 芯片解禁,怎么看?》

21 世纪经济报道:《从超节点到集群 华为亮出 AI 算力全家桶》

信达证券:《DeepSeek-V3.1 发布,国产 AI 芯片迎接战略性机遇》

东吴证券:《半导体设备行业深度:AI 芯片快速发展,看好国产算力带动后道测试& 先进封装设备需求》

华创证券:《计算机行业深度研究报告:国产智算芯片,需求强劲,性能生态再进阶》

半导体综研:《全球主流算力芯片参数汇总、整理、对比 (修正版)》

chosun:《China aims for 80% AI chip self-sufficiency and 30% share in humanoid robots》

wccftech:《Morgan Stanley Guts SMIC’s Huawei AI GPU Revenue By More Than 50% Due To Abysmal Yields》

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 6 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 5 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。