英伟达回归遇阻，谁能替代 H20？

文 | 镜相工作室，作者 | 黄依婷，编辑 | 卢枕

9 月，国内入秋，气温骤降，英伟达重回中国市场的步伐也有些凝滞。

两个月前，仲夏之时，英伟达创始人黄仁勋穿着皮衣落地北京，带来 H20 芯片在中国市场“ 解禁” 的消息。但没过多久，又传来 H20 停产的风声。

作为中国市场定制的“ 特供芯片”，H20 深陷“ 后门” 疑云，被质疑“ 既不安全也不先进”，市场需求疲软。不愿意放弃中国市场的英伟达，计划推出性能更强的 B30A 芯片，以技术优势重建市场信心。

H20 禁售加上“ 后门” 疑云，英伟达的空窗期成了国产厂商补位的良机。这半年来，华为、寒武纪等大力推广自家芯片，在政务云等领域市占率飙升，一些科技大厂也开始批量采购国产芯片。

在黄仁勋的最新访谈里，他提及中国在 AI 芯片上落后两三年的说法，驳斥说：“ 得了吧，他们只落后我们几纳秒。” 话里话外流露出一种迫切，希望美国放开管制，让英伟达重回中国。

眼下，英伟达回归遇阻，腾出来的市场空白，都有哪些国产 AI 芯片厂商竞逐？谁有机会率先取代 H20？国产 AI 芯片厂商追赶英伟达的路上还有哪些阻碍？

谁在竞逐英伟达的遗留市场？

过去，大多数公司采购算力芯片时，首选必定是英伟达。从生成式 AI 爆发至今，英伟达 GPU 凭借卓越的性能、稳定的驱动和完善的 CUDA 生态，筑起强大的护城河。

据 TechInsights 数据，在 GPU 市场，2023 年全球应用于智算中心的 GPU 总出货量达到了 385 万颗，其中，英伟达的市场份额接近 98%。

垄断性的市场地位，使英伟达成为压在国内外科技大厂心头的大山。在国外，微软、谷歌、亚马逊都在一边狂买英伟达芯片，一边自己造芯；而在国内，受限于政策禁令，AI 公司无法获得先进的英伟达芯片，随时面临断供风险，只能寻找国产替代方案。

好消息是，英伟达留给国产厂商的空间足够大，能容纳多家公司同场竞逐。

今年二季度，受禁售 H20 影响，英伟达中国区营收只有 27.69 亿美元，比去年同期的 37 亿美元下降 24.49%。去年全年，英伟达中国区营收 171.08 亿美元。业绩会上，黄仁勋也预测中国市场年增长率大约 50%，光今年就可能有 500 亿美元的商机。

这数百亿美元的市场，英伟达目前只能干着急。在三季度的业绩指引上，英伟达没有假设任何对华出口 H20 的情形，而这也是中国公司的好机会。

在竞逐 H20 遗留市场的公司里，最被看好的公司是华为和寒武纪。

从单卡性能来看，华为昇腾 910B/C，算力已超过英伟达 H20。除华为外，据行业自媒体“ 半导体综研” 整理，FP16 算力能达到 300TFLOPS（每秒万亿次浮点运算）以上的国产芯片，只有寒武纪的思元 590；壁仞科技在 2022 年推出的 BR100，其 FP16 算力能达到 1024TFLOPS，但因受到制裁无法量产。其他如百度昆仑芯、阿里平头哥、摩尔线程等自研主流产品都已经接近 H20 水平。

当然，国产芯片的目标不是阉割过的 H20，最先进的国产 GPU 依旧落后英伟达最新产品两代，算力差距约落后 3 倍。但至少，逐渐替代昂贵但不先进的 H20 已经具备可行性。

除了技术追赶上来，外部环境也在变好，发展国产算力的政策扶持不断，互联网巨头和运营商们纷纷加码算力资本开支，为国产 AI 芯片打开了市场空间。

今年以来，国内 AI 芯片厂商业绩突飞猛涨。短暂成为 A 股“ 股王” 的寒武纪，今年上半年收入 28.81 亿元，同比暴涨了 4348%，首次扭亏为盈，净利润 10 个亿。

华为的大单也源源不断。据行业调研报告，今年昇腾 910B 全年计划出货约 40 万颗，客户主要是运营商和地方算力中心；910C 计划出货 30 万颗，以互联网大厂为主。不久前的华为全联接大会上披露，华为新推出的 CloudMatrix 384 超节点累计部署 300 多套。

阿里平头哥、百度昆仑芯这两家互联网巨头旗下的芯片公司，也有着稳定的内部需求和丰富的应用场景，在充沛的资金下能够快速迭代产品，再反哺互联网大厂的云计算和 AI 业务；摩尔线程、沐曦股份、壁仞科技等新锐也在参与市场竞逐，这些创业公司在技术创新、兼容性设计、市场定位上以灵活见长。

摩尔线程在其 IPO 报表中披露，2025 年上半年营收 7.02 亿元，正在洽谈的 AI 智算领域合同超过 17 亿元，其还与中国移动签署过万卡级合作项目，封装订单规模超 10 亿元。

沐曦股份也曾连续中标两份 AI 训推一体机大单，金额达 14.88 亿元；截至 2025 年 8 月，其在手订单（不含税）为 11.4 亿元，客户涵盖新华三、算丰、汇天网络等。

拿下订单意味着国产 AI 芯片进入到技术迭代和商业变现的良性循环中。摩根士丹利在其最新报告《中国人工智能：沉睡的巨人觉醒》中预测，在外部压力下，中国已全力迈向完全独立，并正在以比预期更快的速度构建自给自足的生态系统，中国人工智能芯片自给率将从去年的 34% 飙升至 2027 年的 82%。

模仿英伟达，还是另走一条路？

追赶英伟达，在一两年以前还是遥不可及的事情。

摆在国产厂商面前的有几座难以逾越的大山：制程优势、供应链稳定性、软件生态。

即便是最先进的国产 AI 芯片，与英伟达的最新产品都有两代的差距，昇腾 910C 单卡 BF16 算力只相当于英伟达 GB200 单卡的 31%。根本原因在于制程落后—— 华为只能用中芯国际的 7nm 多重曝光工艺（近似 7nm 但良率很低），但英伟达可以用台积电的 3nm 工艺。

国产厂商也面临着供应链不稳定的问题，台积电的良率高达 80%，产量稳定，成本可以随着产能爬坡不断降低，而中芯国际 7nm 工艺良率只有 30% 多。另外一个风险是，地缘摩擦对芯片行业的影响不确定，比如壁仞科技的高端芯片 BR100 由于台积电中止代工，迟迟无法量产。

制程问题还可以找到替代方案，但软件生态没有英伟达十几年的积累，很难在短时间内追赶。国内某机器人公司 CTO 王枫告诉我们，使用 GPU 产品最重要的是考虑工具链的完整性，比如 GPU 之间的互联技术、框架的兼容性、并行计算的编程模型平台。这恰恰是英伟达耗时十多年筑起的高墙。

英伟达生态核心是 CUDA，它就像底层的 Windows 操作系统，全球有 400 多万开发者为它构筑加速库、主流框架和大模型，但 CUDA 只能在英伟达芯片上使用，迁移到其他芯片上就要重写代码，光人力和测试成本就高达数千万元。

因此，生态是英伟达最大的底气。以被阉割的 H20 为例，英伟达降低了 H20 的算力，只有 H100 的 15%，但是保留了 HBM3 显存和 NVLink 技术，就是想用“ 低性能+强生态” 稳住市场地位，让中国公司买更多卡来满足需求。

在硬件性能、软件生态和供应链都落后的情况下，国产厂商根据自身能力和市场需求，走上了不同的追赶路线。

华为是受限最多的一家，但自身有着非常好的产业基础和技术能力，因此选择了“ 全栈自研”，从芯片、软件、协议到服务器、交换机、存储等，全部自己做。

制程被卡脖子，华为就把两颗 910B 芯片封装在一起使算力翻倍；HBM 存储技术被卡脖子，华为就自研 HBM；卡间互联速率慢，华为就研发对标 NVLink 的灵衢 UB。这些系统级的优化创新避开了制程限制，解决了单卡算力差的问题。

质量不够，数量来凑。沿着这个思路，把很多芯片、内存、网卡像“ 拼乐高” 一样堆叠在一起，用高速线缆传输数据，就是华为推出的“ 超节点技术+集群战略”，代表性产品 CloudMatrix 384 超节点集群，BF16 算力总和超过了英伟达 NVL72 系统。

华为也在培育生态。想让人用自家的芯片，就得让黏性超高的 CUDA 开发者和应用厂商迁移过来，这需要分两步，第一步是让自家芯片可以兼容 CUDA，第二步是向他们提供基于自家生态的工具和框架。

华为推出的异构计算架构 CANN 对标 CUDA，已经能兼容 80% 的 CUDA API，支持 85% 的 CUDA 算子自动转换，但转换后性能会损耗 15%-20%；CANN 还能兼容 PyTorch、TensorFlow 这些主流框架，华为也自研并开源了 MindSpore 全场景人工智能计算框架，开放灵衢互联 2.0 协议规范，试图吸引更多开发者共同完善生态。

华为做“ 大而全”，一边模仿一边自研，多数国内厂商则只能做“ 小而美”，从垂直、细分市场切入，要么兼容英伟达，用性价比撬动客户，要么针对特定需求做定制芯片。

国产厂商最常见的一种做法是“NV 兼容”，通过中间件把现有 CUDA 代码映射到国产芯片指令集，让硬件“ 听懂” 开发者的意图。芯片使用者可以在不大幅重写代码的前提下，把工作任务迁移到国产芯片上运行，降低了使用和切换的门槛。这种做法是市场导向，先靠模仿打开市场，站稳脚跟，让自己活下去，后面才有机会发展自己的生态。

昆仑芯和华为都在验证类似方案，且在一定程度上获得了市场认可。2025 年 8 月下旬，中国移动 2025 年至 2026 年人工智能通用计算设备（推理型）集中采购项目中，百度昆仑芯在“ 类 CUDA 生态” 标包中几乎包揽前三个分项的头名，总中标订单规模达到十亿级。

做定制芯片的佼佼者是寒武纪。与英伟达所做的通用 GPU 不同，寒武纪的 AI 芯片属于 ASIC（专用集成电路），可以应用于云服务器、边缘计算设备、终端设备上，在对延迟、功耗和成本敏感的场景中，展现出更高的性价比。

不管是兼容模仿，还是全栈自研，都是在用自己最优势的能力，在英伟达的夹缝里寻找突破口，这条路注定坎坷。

追赶英伟达，是漫漫长路

硬件和软件都在缩小差距，但要让市场相信国产厂商的产品可用，是一个极其艰难的过程，尤其对那些已经使用英伟达芯片的开发者。

一个已经在英伟达 GPU 上训练好的大模型，要搬到国产 AI 芯片上运行，中间有两道坎。

第一道坎叫算子对齐。过去十几年，英伟达和全球开发者用 CUDA 写下了海量的算子库。要迁到国产芯片上，就得把一个个算子翻译成国产芯片能听懂的语言。这不是简单的复制粘贴，而是成千上万条代码的“ 逐句翻译”，需要大量人力和时间。

第二道坎是分布式重构。大模型训练常常需要几百上千张卡一起算，英伟达有自己成熟的沟通协议，H20 的 NVLink 带宽是昇腾 910B 的 2.25 倍，训练万亿参数大模型时，多卡协同效率能高 10%-15%。这在千亿级模型训练里，可能差好几周时间。

有机器人开发经历、目前正从事芯片研发工作的张振尧表示：“ 在迁移顺利的情况下，芯片硬件性能能发挥到 70% 到 80%；如果算子勉强适配，可能只有 30% 到 40%。” 这也是为什么即便国产芯片在参数表上标注的性能比肩英伟达，真正跑起来却常常不如预期。

王枫的经验印证了这一点。他所在的机器人公司曾经长期使用英伟达 GPU，从 4090、5090 到 H100、H20 都有涉猎。两年来，随着英伟达芯片价格高企、获取困难，他们开始尝试华为昇腾的云端算力。

真正让他焦虑的，并非单纯的硬件，而是新平台、新架构带来的不确定性。英伟达 CUDA 深度绑定在硬件里，几乎所有主流的机器学习框架都得跟它打交道。比如开发者们常用的 PyTorch，对 CUDA 的支持是最全面的，两者无缝衔接，用起来又快又稳定。

王枫曾尝试用华为芯片跑 Llama 等比较流行的几个模型，几乎每个模型都需要华为单独适配后才有可能在它的芯片上运行，这直接导致模型更新滞后。华为芯片目前只适配了 160 多种模型，而在英伟达的芯片上可以直接跑几万种模型。

华为分别推出了对标产品，但在王枫看来，如果没有明显的优势和终端市场需求，这些产品很难撬动市场。这就像平面设计师对 Photoshop、会计师对金蝶软件的依赖，几十年如一日，已经固化成行业习惯，不是所有人都会学习新技术，能学习的也会考虑到机会成本。

中小开发者考虑易用性，对于大公司，整体迁移的成本更是天价。互联网大厂现有的算力基础设施大部分是基于英伟达架构，要是全换成国产，IDC 的供电系统、网络拓扑等底层架构都得改造，改造成本能达到硬件采购价的 2-3 倍。

由于 CUDA 生态更成熟，英伟达集群的运维人力成本也要低很多，而华为集群由于芯片制程问题，体积更大，规模化部署还要额外投入数倍的散热、电力和机房空间成本。

制程问题也造成国产芯片采购成本更高，且供不应求。但由于 H20 的安全问题和断供风险，国产芯片 to G 需求很大，to B 的需求也在增长，迁移是不得已的事情，厂商和客户需要共度时艰。

相比技术和生态上短时间难以弥补的巨大差距，国产厂商更容易发力的地方，是周到的服务和更有吸引力的价格。

张振尧回忆，使用英伟达芯片时，遇到问题只能从开发者论坛、社区的公开文档找答案，很难获得官方工程师的支持，“ 英伟达的支持体系是很成熟的，但同时也是分层的，不对我们这样的小客户开放”。

相比之下，和国产芯片供应商接触时，他能直接和原厂工程师反馈问题，对方会派两三个工程师和他们一起去调试，有时候还会拉会，出新的版本给他们做测试，愿意为客户解决一些问题。他说，这在英伟达是不可能发生的。

算力芯片研发人员唐诗（化名）也有类似感受：“ 国内芯片卖出去，基本都得有工程师驻场维护，协同客户上线业务，进行开发。” 这样的故事也曾发生在华为。据 36 氪报道，华为联合讯飞发布“ 星火一体机” 的背后，是不惜人力成本，调配了几百名工程师下场帮讯飞调校参数。

在不惜成本的人力投入下，一定程度上弥补了生态和性能的欠缺，让国产厂商撕开了一道口子。短期内，在推理场景和边缘计算方面，国产芯片已经展现出一定的成本优势，但在训练领域，尤其是训练千亿参数以上的大模型，H20 还有比较强的生态和技术优势，暂时还没法被替代。国产芯片还需要两到三年的技术迭代，也需要下游的封装、制造环节同步突围。

产业链上下游整体进步，今年 DeepSeek-R1 模型的发布就是一个很好的例子。在这之前，大多数可被使用的开源模型来自美国，从底层适配开始就很难与中国硬件做好兼容。DeepSeek-R1 发布后，中国在模型和硬件上有了同时可用的方案。

8 月下旬发布的 DeepSeek-V3.1，也针对国产芯片做了优化。不久前，腾讯也宣布已全面适配主流的国产芯片，并希望通过异构计算平台整合多类芯片，提供高性价比的 AI 算力解决方案。越来越多客户加入到国产芯片阵营，替代的速度也会越来越快。

从服务到迁移，从生态到工艺，国产 AI 芯片厂商正经历着一场艰苦的追赶战。他们没有捷径，只能靠人力投入去弥补生态差距，用长期的技术迭代去对冲硬件短板，再忍受工艺成熟之前的高昂成本。这是一个注定不会轻松的过程，是一次软硬件、生态和市场的再造。距离真正替代 H20，国产厂商们还有很长的路要走。

参考资料

36 氪：《围剿英伟达丨深氪》

新浪财经：《英伟达最新特供芯片 RTX 6000D 需求疲软，国内厂商投入自研 AI 芯片》

人民日报：《H20 芯片解禁，怎么看？》

21 世纪经济报道：《从超节点到集群华为亮出 AI 算力全家桶》

信达证券：《DeepSeek-V3.1 发布，国产 AI 芯片迎接战略性机遇》

东吴证券：《半导体设备行业深度：AI 芯片快速发展，看好国产算力带动后道测试& 先进封装设备需求》

华创证券：《计算机行业深度研究报告：国产智算芯片，需求强劲，性能生态再进阶》

半导体综研：《全球主流算力芯片参数汇总、整理、对比（修正版）》

chosun：《China aims for 80% AI chip self-sufficiency and 30% share in humanoid robots》

wccftech：《Morgan Stanley Guts SMIC’s Huawei AI GPU Revenue By More Than 50% Due To Abysmal Yields》

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

英伟达回归遇阻，谁能替代 H20？

专业财经网站

方舟日历

2026 年 6 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

英伟达回归遇阻，谁能替代 H20？

谁在竞逐英伟达的遗留市场？

模仿英伟达，还是另走一条路？

追赶英伟达，是漫漫长路

专业财经网站

方舟日历

标签