国产 GPU 迎战英伟达 H200

文 | 最话 FunTalk，作者 | 林书，编辑 | 刘宇翔

2025 年 12 月 17 日，沐曦股份在科创板上市，首日收盘价 829.90 元，较发行价 104.66 元上涨 725.24%，沐曦专注于高性能 GPU 芯片研发，产品覆盖人工智能计算、通用计算及图形渲染领域。

就在不到两周前的 12 月 5 日，摩尔线程正式登陆科创板，成为“ 国产 GPU 第一股”，是 2025 年科创板募资额最大的 IPO，从受理到过会仅用 88 天，发行价为 114.28 元/股，上市首日涨幅达 425.46%。

国产 GPU 厂商的密集上市并备受市场追捧，某种程度上，对“ 狼又回来了” 的回应。据媒体报道，2025 年 12 月 8 日，美国总统特朗普在社交媒体宣布：美国将允许英伟达向中国"经批准的客户"出口 H200 人工智能芯片，但需将销售收入的 25% 上缴美国政府。

美国智库进步研究所报告显示，H200 的性能几乎是 H20 的六倍，但仍与最新的 Blackwell 芯片存在代际差距—— 这恰好卡在"能用但不先进"的甜蜜点上。因此美国解禁 H200 其实是其"温水煮青蛙"策略的延续——“ 倾销” 性能相对落后但仍具竞争力的 H200 芯片，试图延缓中国国产替代的进程。

更有意思的是，黄仁勋曾直言不讳地表示，增加对华芯片销售额既能让中国企业依赖其技术，又能为公司带来更多研发资金。这种"以战养战"的思路，与美国鹰派的"技术依赖论"不谋而合。

但这场"温水煮青蛙"的意图能否得逞，还要看我国接不接招。从加快国产 GPU 厂商上市来看，显然，我国并不上钩。

没有 H200 的日子

2022 年至 2025 年，美国对华半导体出口管制政策层层加码。2025 年 4 月，美国进一步收紧管制，导致英伟达为中国市场定制的特供版 H20 芯片被迫停售，公司因此承受了约 45 亿美元的库存损失及 80 亿美元的潜在收入损失。英伟达 CEO 黄仁勋在 2025 年 10 月公开表示，受出口管制影响，英伟达在中国的市场份额从 95% 骤降至 0%，公司"100% 离开了中国市场"。

这三年，被业界称为中国 AI 芯片产业的"至暗时刻"，但也正是这三年，催生了国产芯片的加速崛起。面对外部封锁，国产 GPU 厂商采取了"三管齐下"的突围策略：

在单卡性能暂时无法与英伟达匹敌的情况下，国产厂商通过堆面积、堆晶体管、堆芯片的方式来弥补性能差距。华为昇腾 910C 采用双 Die 设计，FP16 算力达到 800 TFLOPS，性能逼近英伟达 H100 的 80%；寒武纪思元 590 综合性能达到英伟达 A100 的 70-80%；海光信息深算二号 FP16 算力达 1024 TFLOPS，接近 A100 的 90%。

由于能效比较差，国产卡普遍采用"电力+工程能力"硬顶的方式解决功耗问题。摩尔线程的"平湖"架构支持单芯片最高 1000W TDP 动态功耗管理，通过液冷等工程手段确保稳定运行。虽然每瓦性能仍落后英伟达约 30%，但国产卡低功耗版已经正流片。

说白了，在这段时期，国产卡往往采用用更密集的液冷，堆更多服务器机架，试图以更强的工程能力来补落后的能效。

最后是"生态兼容+编译层 hack"。面对英伟达 CUDA 生态的垄断地位，国产厂商采取了兼容策略。海光 DCU 通过 ROCm 生态实现对 CUDA 的"软兼容"，实测迁移效率可达 85%。华为 CANN 架构采用"指令翻译+动态调度"技术，实现对 CUDA API 的 80% 覆盖。

这里的“ 兼容 CUDA”，从技术上来说，相当于做了一层翻译器，让国内 GPU 能跑英伟达的指令语言，例如英伟达的函数叫 CUDA_X，国产的函数叫 BR_X（比如壁仞），→ 相当于就做一张“ 对应关系表”，代码调用 CUDA_X 时自动转成 BR_X。就像查字典一样，把“ 英伟达语” 翻译成“ 国产语”，通过合并算子、分拆算子、调整执行顺序等一系列手段，将 CUDA 中的算式变得更适合本地语法。

但问题也显而易见：永远慢半拍—— 因为对方不断更新语言，你永远要追新词，英伟达每次更新 CUDA、更新架构，国产厂商立刻要做新的翻译器，这在战略上十分被动。

H200 被挡在门口的三年，国产 GPU 技术路线呈现出非常鲜明的“ 中国式风格”—— 在工艺受限的情况下，通过“ 架构取巧、集群堆叠、算子融合、软件兼容” 这些工程学上的努力，硬生生把落后的硬件打磨到可用、能上规模、适配大模型训练的程度。

这套路线不是工程上的最优解，但在封锁环境下，是现实可行的最优解。

差距到底在哪？

要评估国产 GPU 与英伟达 H200 的技术差距，需要用统一的标准进行量化对比。根据美国商务部工业与安全局（BIS）定义的"总处理性能"（TPP）指标，可以对主流 AI 芯片进行横向比较，作为参考。

这里的 TPP 指标，指的是解析：TPP = 2 × MacTOPS × 操作位长，通常以 TFLOPS（FP16）× 16 计算。根据伯恩斯坦研究 2025 年 12 月发布的报告，各芯片 TPP 性能对比如下：

- 英伟达 H200：60,000 TPP（基于 Hopper 架构，141GB HBM3e，4.8TB/s 带宽）

- 英伟达 H20：15,832 TPP（特供版，性能仅为 H200 的 26%）

- 华为昇腾 910C：36,912 TPP（性能约为 H200 的 61.5%，国产最高）

- 寒武纪思元 590：29,360 TPP（性能约为 H200 的 49%）

- 海光 BW1000/DCU3：14,688 TPP（性能约为 H200 的 24.5%）

- 摩尔线程 S4000：约 20,000 TPP（性能约为 H200 的 33%）

从公开数据可以看出，国产顶级芯片在单卡性能上仍落后 H200 约 1.6-2 倍，但已经超越了 H20，达到了"可用"的水平。

然而，在训练能力方面，国产卡单卡仍落后 2-3 倍，但所幸的是，集群层面可通过"堆卡+高速互联"弥补部分差距。

华为 CloudMatrix 384 集群（384 张昇腾 910C）性能接近英伟达 GB200 NVL72，在部分大模型训练任务中表现良好。但需要注意的是，由于工艺制程限制（国产芯片普遍采用 7nm，H200 采用 4nm），每瓦性能仍落后 30% 左右。

推理能力方面，国产 Top 卡已持平甚至超越阉割版 H20。华为昇腾 910B2 的 INT8 算力达到 762 TOPS，在推理阶段处理低精度数据效率较高；寒武纪思元 590 在推理场景中也表现优异，KV-Cache 放得下、带宽够用。沐曦曦云 C550 的显存带宽达到 1600-1800GB/s，超越 H200 的 4.8TB/s，在大规模推理任务中具有优势。

成本和功耗方面，目前海光 BW100 采购价格约 10 万元/张，寒武纪 590 价格从最初 8.5 万元降至 6-7 万元，华为 910C 约 18 万元，均显著低于 H200 的 30-40 万元。更重要的是，H200 还需额外支付 25% 的"美国税"，使得国产卡在成本上具有约 50% 的优势。功耗方面，虽然国产卡单卡功耗较高，但考虑到 H200 的 700W TDP，实际差距并不悬殊。

生态进度是国产芯片最大的短板，但也是进步最快的领域。

目前，华为昇腾的 CANN 工具链已支持与 MindSpore 深度协同和 PyTorch 一键迁移。其他国产平台也在做类似深度编译器与中间表示 (IR) 适配，让开发者可以更少手动改代码地运行大模型。

其中的主要原因，在于不同国产芯片厂商、云厂商、软件团队、科研院校都在合作推动生态规范标准化、工具共享、适配案例共享。

这种产业协同在生态建设上是少见优势。

综合来看，国产芯片与 H200 在训练方面的差距依旧存在，但在推理方面，已收敛到"能用+成本更低+可控"的水平。

现阶段，国产芯片正从"勉强及格"向"好用"的爬坡阶段迈进，根据根据伯恩斯坦的推测，预计 2026-2027 年，将在部分场景实现与 H200 的全面竞争。

未来的较量

在产业方面，从技术演进来看，英伟达刚刚发布的 Blackwell Ultra 系列仍延续"堆料涨性能"的路线，赌的是摩尔定律（或"黄氏定律"）尚未终结。所谓“ 黄氏定律”，不是什么物理学定律，而是英伟达 CEO 黄仁勋提出的'GPU 性能每两年翻一倍'的经验法则。

这种“ 定律” 与其说是自然规律，不如说是英伟达研发投入和市场策略的体现—— 每年投入超过 70 亿美元的研发费用，让竞争对手望尘莫及。

但国产芯片没有直接硬碰硬，而是采用"架构取巧+多芯片封装+集群堆叠"的迂回战术。华为昇腾采用双 Die 设计，通过先进封装技术提升集成度；摩尔线程"平湖"架构实现 Chiplet 可扩展架构，支持计算 Die、HBM3e 存储 Die 与 IODie 灵活配置；沐曦曦云 C700 系列进一步扩展对 FP4 等低精度的计算支持，对标 H100。

总体上来看，在先进工艺受限的情况下，国产芯片通过架构创新实现了性能突破。华为昇腾 910C 采用达芬奇架构 3.0，集成 32 个自研 AI Core，支持原生 CANN 异构计算；寒武纪思元 590 采用 MLUarch 架构，通过指令集优化提升计算效率；海光深算三号采用 x86+GPGPU 的 Chiplet 封装，通过 2.5D 封装实现 HBM2e 内存直连，带宽达 1.6TB/s。

这些技术创新使得国产芯片在特定场景下能够实现与英伟达相媲美的性能表现。

并且从应用层面看，国产 AI 芯片已经找到了自己的"舒适区"，而且干得相当不错。

例如智算中心这类场景，现在已经成了华为的“ 主场”。截至 2025 年，全国 600 多个智算中心项目中，超过 300 套 Atlas 900 超节点已经商用部署，华为昇腾在智算中心领域可以说是"一枝独秀"。涵盖互联网、电信、制造等多个行业。中国电信粤港澳大湾区的智算昇腾超节点，更是成为全球首个商用的超节点项目。

同样地，在面向国内大生态的专用场景，例如智能安防、金融风控、OCR / 文本语义检索、音视频内容处理（如自动剪辑、AI 转码）等任务中，国产卡可针对特定算法做深度定制优化。

通过自研编译器和算子库直接对接国内框架如 MindSpore，在“ 我只要这个任务跑得快就够了” 的场景下，专用定制往往比通用 GPU 效率更高。

而在低延迟/ 小规模边缘场景，例如边缘 AI、工控设备、机器人本地推理等场景，国产 NPU/ASIC 方案比通用 GPU 效率更高。因为架构从一开始就针对推理做到低功耗，不依赖重型 CUDA 生态

说到底，国产芯片的优势场景都有一个共同点：对成本、功耗、供应链安全敏感。在这些场景，性能不是唯一指标，性价比和自主可控才是王道。

总结而言，H200 的有限解禁是美国"技术依赖"策略的体现，试图通过提供次高端产品维持中国对美国技术的依赖。但这一策略为时已晚—— 在 H200“ 断供” 的封锁期内，中国 AI 芯片产业已经建立起从硬件到软件、从单卡到集群的完整解决方案。

而这套日益牢固的基本盘，不是一块 H200 就能轻易“ 打回原形” 的。

更重要的是，大模型越来越稳定，训练次数变少的当下，最贵的训练不再那么频繁，但推理量是每天都在爆炸，国产卡能不能吃掉训练，短期不重要，只要把推理吃死，整个产业也就立住了。

在进入“ 战略相持” 阶段的当下，倘若再多给国产芯片一些时间，假以时日，国产训练卡也将"上桌掰手腕"。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

国产 GPU 迎战英伟达 H200

专业财经网站

方舟日历

2026 年 5 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

国产 GPU 迎战英伟达 H200

没有 H200 的日子

差距到底在哪？

未来的较量

专业财经网站

方舟日历

标签