关键词: 深度求索 DeepSeekV4 华为昇腾 AI芯片 全栈国产化
据中国媒体及《The Information》等外媒报道,AI初创企业深度求索(DeepSeek)即将发布的新一代大语言模型V4,将完全运行于华为昇腾950PR芯片之上,彻底打破业界"唯英伟达是从"的惯例。

为确保V4在国产硬件上高效运行,DeepSeek过去数月与华为及寒武纪密切合作,对模型底层程序进行了大量调整与重写,并同步开展测试验证。
据了解,V4采用了混合专家架构(MoE),总参数量高达1万亿,每次推理激活约370亿参数,支持文本、图像与代码的多模态输入。
适配过程中最耗时的并非算子重写,而是精度对齐——同样的模型在英伟达和昇腾上跑出一致结果,需要反复调试。据接近DeepSeek的工程师透露,V4如果跑顺,相当于为国产AI芯片阵营发了一张"质量保证"的合格证。

与以往AI模型开发优先适配美系芯片的惯例不同,DeepSeek此次未向美国AI芯片供应商开放测试,而是将国产芯片厂商置于优先位置。
今年英伟达GTC大会上,发言的是月之暗面创始人杨植麟,而非DeepSeek代表。业内猜测,DeepSeek拒绝了英伟达提前获取V4内核的权限。
《金融时报》爆料,DeepSeek之前拿昇腾训练推理模型时曾遭遇稳定性难题——芯片稳定性差、互联速度慢、软件工具链不成熟。从栽跟头到今天V4能直接跑在昇腾上,中间踩了多少坑,只有他们自己知道。
DeepSeek V4的推理将运行在华为今年3月发布的昇腾950PR处理器上。该芯片采用中芯国际7nm工艺,搭载华为自研达芬奇架构,主要性能参数包括:
算力:FP8精度下1 PFLOPS,FP4精度下2 PFLOPS,是英伟达H20的2.87倍
内存:搭载华为首款自研高带宽内存HiBL 1.0,容量112GB,带宽1.4TB/s
互联带宽:2TB/s
软件生态:CANN Next兼容CUDA,新增SIMT编程模型,可直接适配英伟达代码环境
华为还计划2026年生产约60万枚昇腾910C芯片,达到2025年产量的两倍,并目标在2026年将昇腾产品线总产量推高至160万片。
为应对基于V4模型的云服务上线需求,阿里巴巴、字节跳动和腾讯等中国科技巨头已提前向华为下单,订单总量达数十万颗昇腾950PR芯片。需求激增直接推动了该芯片价格上涨约20%。
据IDC数据,2025年中国AI加速服务器市场中,本土芯片厂商的市占率已攀升至约41%;其中华为凭借昇腾系列产品,以81.2万张出货量占据国产芯片总出货量的近一半。

DeepSeek还同步开发了两款针对不同应用场景优化的V4衍生版本,同样基于中国芯片设计。
业内分析指出,DeepSeek V4"换芯"事件的影响远超单个公司或产品层面。它标志着国产AI芯片正式走向前台,正在逐步取代美系AI芯片。如果DeepSeek在一两年内做到推理和训练都在昇腾上跑,编译器、算子、通信库、分布式训练、推理框架都稳定,那么它的核心模型生产流程就可以基本脱离CUDA。
中国AI产业正在走出一条属于自己的道路。这条道路或许更加崎岖,但每一步都在让未来的自主之路越走越宽。
来源:电子工程专辑