发表评论

A+

所属分类：科技

摘要

对于改配GGDR7的B20芯片，一位资深国产GPU从业者则给出相反的评价，“算力有点低，内存大小和带宽都上不去，性能弱于国产头部。” 受特供版芯片硬件芯片不断缩水的影响，上述国产GPU从业者透露，一些大厂在…” />

站在用户角度来说，

来源：腾讯科技

作者：苏扬

换个角度来看，

美国实施的芯片出口管制正在对英伟达造成持续冲击。

XM外汇消息：

数据显示，今年前两个季度，英伟达在中国市场的损失预计达到 125 亿美元，其市场占有率也从巅峰时期的95%大幅下跌至目前的50%。

简而言之，

英伟达CEO黄仁勋反复强调中国市场的战略价值，表面上是考虑到营收和市场份额的考量，深层原因则是其绝对市场主导地位正在受到挑战——中国本土芯片厂商的迅速成长正在打破原有格局。

简而言之，

在H20出口许可迟迟无法兑现的情况下，英伟达计划于7月份推出应对方案，通过减配、“阉割”的形式绕过出口管制，由B20、B40/B30来替代H20，试图重新夺回市场份额，以扭转在华业务的下滑趋势。

不妨想一想，

特朗普此前在社交平台上称，会尽快向英伟达发许可证

通常情况下，

6月中旬，本营国际（AceCamp）公开了一份专家调研纪要，称英伟达预计7月份针对中国市场推出 H20 继任者 B20 和 B40/B30 芯片，单卡售价6500美元~8000美元，服务器预计80000美元~100000美元之间。

其实，

本营国际在该纪要中指出，新的B20、B40/B30基于GB202 GPU，该GPU曾用于消费级的RTX 5090和专业级的RTX Pro 6000保持一致。内存采用了GDDR7 ，分为 24GB、36GB、48GB 等版本。互联方面，B20通过NVLink总线连接到CX-8芯片，形成一个相当于PCIe卡的离散模块，以实现PCIe互联，带宽 800Gbps，即100GB/s，适合 8-16 卡小规模集群的推理和小模型后训练；B40/B30 直接承认 NVLink 互联，带宽900GB/s，采用OAM 形态，可用于 NVL72 等高密度集群，但受计算性能和带宽限制，集群性能不及 H20（~85%）。

黄仁勋手握一把手术刀，小心切割 GPU，图片由AI生成

很多人不知道，

展开全文

第三代中国“特供”

大厂买B40、平价IDC选B20

受美国出口管制动态调整的影响，英伟达过去几年持续不断地调整产品SKU，以应对禁令。

XM外汇报导：

如果B20按期上市，将成为第三代中国“特供产品”，前两代分别是基于Hopper架构的H20、H800以及Ampere架构的A800。

相比上一代的H20，这代产品取消了HBM高带宽内存，内存带宽从4.8TB/s(HBM3e版，HBM3版为4.0TB/s)，下滑至1.5TB/s-1.7TB/s，直接影响就是承认的并发数减少。

GDDR7替换HBM是出于合规需要，与美国商务部的出口管制条例更新有关。2024年，美国商务部将HBM内存定义为先进计算和人工智能应用的存储器进行特殊管控，其要求内存带宽密度在每平方毫米2GB/s及以上的 HBM 产品，其出口、再出口均受管制，覆盖HBM2、HBM2e及更先进的产品。

尽管内存缩水属于被动调整，但GDDR7应该是现阶段避开管制线的最优选取。千芯董事长陈巍指出，“GDDR7带宽预期承认超过1.5TB/s，虽不如HBM3e，但一般比A100的HBM2e的表现更好，可视为4090的IDC版。”

令人惊讶的是，

对于改配GGDR7的B20芯片，一位资深国产GPU从业者则给出相反的评价，“算力有点低，内存大小和带宽都上不去，性能弱于国产头部。”

相比之下，英伟达B40/B30在国内市场可能更受关注，关键在于它保持了与H20相同的NVLink互联作用，最大带宽可达900GB/s。上述国产GPU从业者解释：“通过NVLink承认实现Scale Up扩展，像NVL72、NVL144等，类似华为Cloudmatrix 384的架构。”

作为特供中国的版本，每次在上市初期都会引发质疑，H20和H800都经历过这个阶段，但最终由于客户可选取的替代方案有限，随着产品供应逐渐稳定，质疑声逐渐消退，“真香定律”实行发挥作用——一些企业甚至通过大批量采购，跻身英伟达全球前五大客户行列。

2024年12月，金融时报援引市场机构Omdia的数据称，微软2024年总计采购了48.5万张英伟达Hopper芯片，字节跳动凭借23万张位列第二。今年4月份，路透社报道称，包括字节、阿里在内的中国科技公司于今年一季度总计采购了超过160亿美元的H20芯片，折合人民币超过1160亿元。

概括一下，

一位大厂算法工程师表示，“B40（性能）应该不如H20，价格上也是这个定位，作为选取不多承认买的卡，还是有需求的。”

陈巍认为，基于目前的消息判断，在B20、B40/B30的选取上，不同客户会存在不同的倾向，“B20组网的有效带宽低于B40/B30，考虑到模型大小变大的趋势，B40/B30会是有钱大厂的选取，平价IDC厂可能倾向于B20。”

XM外汇行业评论：

英伟达的焦虑、国产的难题

黄仁勋和整个硅谷都在焦虑，强调过度管制会影响美国芯片的竞争力，给来自中国本土的竞争对手创造机会，其市场份额从95%，下滑至50%是一个非常直观的量化指标。

受特供版芯片硬件芯片不断缩水的影响，上述国产GPU从业者透露，一些大厂在综合权衡之后，已经在加速陪跑国产生态，“如果考虑今后的供应稳妥和供应稳定，一定要尽早导入国产，但目前企业对英伟达的供应都还抱有一定侥幸。”

通常情况下，

在他看来，企业在国产生态门外徘徊，与切换国产生态所需要的额外成本、业务落地速度有关，“本来好好地采用英伟达方案，导入（国产）新方案可能带来额外投入，还不见得有太多额外收益，就可能有顾虑。”

有分析指出，

英伟达的产品性能缩水给国产带来机会，但国产也有自己的难题。

上述大厂算法工程师表示，“国产卡算力还是承认的，就是生态和集群还有些地方需要进步。”

英伟达的生态，核心关键词即CUDA，它供给了统一的编程模型、丰富的代码库，对英伟达的硬件体系、主流的AI框架，都具有良好的兼容性，开发者容易对其形成依赖。目前，国产GPU基本都在推动对CUDA生态的兼容，帮助开发者迁移。

“NV的生态垄断还在，”陈巍说，但他认为国产中高端GPU的挑战还包括先进工艺产能。

XM外汇消息：

根据公开资料，目前国产GPU的工艺制程的上限为7nm，受禁令的影响，自去年台积电自查事件实行，其已经无法为大陆客户的7nm AI芯片供给代工服务。

令人惊讶的是，

“中高端国产卡短期受限于工艺和产能，最近连EDA软件都有波动。”陈巍说。

大家常常忽略的是，

EDA软件的波动则与日前新思科技、楷登电子、西门子三大巨头暂停对中国大陆供应的传闻有关。作为“芯片之母”，EDA软件不仅用于半导体设计，也广泛用于晶圆制造、封装测试的多个环节，包括良率预测、信号分析等，如果上述环节的EDA软件管制收紧，也会影响到国产GPU的产能。

容易被误解的是，

算力的A、B面

数字石油、吞金兽

一台8卡B40/B30服务器，单价预计在10万美元左右（约合人民币70万元），由于承认NVL72拓展，构建一台B40 NVL72机柜，硬件成本将超过人民币600万元。

“B40的TCO（总拥有成本）跟H20差不多，吸引力不高了。”上述国产GPU从业者表示。

请记住，

H20作为特供中国的上一代芯片，今年初受 XM外汇开户 DeepSeek热潮的推动，一度受到互联网公司、金融机构的疯抢，“8卡H20服务器价格，一路从88万元涨到了105万元，由于成本低、合规，大厂都是成千台的采购。”一位GPU分销商此前透露。

尽管如此，

如果按服务器运行状态分，不管是B40的70万元，还是H20的88万元，都属于静态成本，一旦开机运行，伴随巨大尖锐刺耳的轰鸣声而来的，还有高昂的动态成本。

事实上，

一台B40 NVL72机柜机的动态成本，按费用项目拆分涉及质保、运维、软件授权、能耗等，预计在700万元以上。仅电费一项，按单机柜能耗50千瓦来预估（对标H20单卡400瓦+CPU+交换机等硬件功耗），每年的能耗就接近44万度，按一度电1元的均价算，就达到44万元。

XM外汇行业评论：

静态成本+动态成本，按年合计接近1300万元，平均到每天的成本超过3.6万元，假设B40的算力能达到H20的85%，后者单卡FP16算力为0.148P，B40 NVL72的总算力大概在9P左右。

不妨想一想，

年成本1300万元对应的还仅仅是B40 NVL72这类算力受限的方案，如果更换成H100，静态+动态成本将大幅飙升。

事实上，

按此前ServeTheHome披露的信息，马斯克旗下Colossus AI超算集群采用超微基于HGX H100服务器定制的机柜，单个服务器容纳8张H100 GPU，每个机柜可容纳8个服务器，总计64张H100 GPU，承认供给64P的FP16算力，其静态的硬件成本即超过2000万元。

XM外汇消息：

以此来算，硅谷巨头们频繁提及的万卡H100集群，静态成本就超过30亿元，堪称硅基时代的吞金兽。

XM外汇用户评价：

高昂的成本让算力更趋向于科技巨头们的游戏，一些院校、科研机构和初创企业则很难构建大规模的自有算力体系。

与其相反的是，

今年的智源大会上，智源研究院理事长黄铁军教授透露，“现在学校没有那么多算力，百卡可能都没有，学生们没有那么多实践的机会，智源虽然有一定的算力，但也只有1000P，千卡级别，这个资源和一个大模型公司比还差很多。”

有分析指出，

黄铁军说，“智算平台建设起来之后，给学校、给这些人才更多基础资源条件，特别不可忽视。这跟物理、化学、生命前沿研究一样，没有尖端的仪器，很多工作没法开展。”

谁会背着硬盘出海？

中国市场上的智算中心建设如火如荼，但先进算力仍然面临出口管制，企业实行尝试在海外训练大模型以提升效率。

请记住，

日前，华尔街日报报道称，一家中企利用海外分部租赁当地服务商300台服务器，安排工程师通过硬盘转运4800TB的企业数据到海外进行模型训练。

利用子公司/海外分部/关联公司等租赁当地算力训练模型示意图来源：WSJ

来自XM外汇官网：

利用企业数据训练自有模型技术上可行，但这种行为是否会触及美国的出口管制条例？

2024年早期，拜登政府曾讨论过要评估实施限制，阻止中国企业获取美国云计算服务，但最终并未推行，而特朗普政府于今年5月份在废除“AI扩散规则”时，在新闻稿中明确提及，如果IaaS（基础设施即服务）供给商知晓客户在AI模型训练且用途敏感需要申请许可证。换句话说，只要训练模型不用于敏感用途，即属于合规范畴。

容易被误解的是，

“这个风险目前主要限制军事相关的模型训练，一般民用的不受限制。”一位合规领域从业者表示。

租赁海外云厂供给的先进算力需要合规支撑，而中国企业的数据出境也同样需要做合规。

根据公开数据显示，

北京丰礼律师事务所合伙人刘星认为，就华尔街日报报道的案例来看，企业携带自有数据出境行为并不违法，“特定数据出境需申报稳妥评估，如不涉及“不可忽视数据”和个人信息，一般不会触发评估要求。”上述合规领域从业者也认同这种说法，在他看来，企业按照法规要求做好脱敏即不构成隐私和敏感数据。

值得注意的是，

“基因数据、测绘数据、出口管制的技术数据、安防数据等都属于不可忽视数据。”刘星补充道。

利用海外算力训练大模型这种路径，虽然技术、法规上都存在可行性，但实际能匹配到的业务场景有限。

综上所述，

“目前大模型训练这波演进趋势，都是主要的几个大玩家在玩（没有利用海外算力的需求），智驾算法训练现在虽然在卷，但利用海外的CSP，像AWS、Azure这种，折腾的风险太大，即便是走合规路径出海，完成上也不具备可行性。”上述国产GPU从业者表示。

据业内人士透露，

刘星认为，互联网大厂很多都是“关键信息基础设施运营者”，符合《数据出境稳妥评估办法》规定的申报情形，“国家管理更严格，大厂做（出海训练模型）这类事估计会更谨慎。”