- A+
DeepSeek V3.1提及的UE8M0 FP8引爆了舆论,但大家也要清醒看到,其意义并非在于技术上的原创性突破,而是标志着国产AI产业链协同迈入新阶段。它的核心意图在于串联起芯片厂商适配、大模型软件链优化,打破“单点创新”困局。尽管国产算力仍有短板,但上下游企业从协同设计到生态联盟的探索,正以“1+1>2”的合力,为中国AI全产业链突围筑牢根基。
反过来看,
DeepSeek V3.1提及的UE8M0 FP8引爆了舆论,但大家也要清醒看到,其意义并非在于技术上的原创性突破,而是标志着国产AI产业链协同迈入新阶段。它的核心意图在于串联起芯片厂商适配、大模型软件链优化,打破“单点创新”困局。尽管国产算力仍有短板,但上下游企业从协同设计到生态联盟的探索,正以“1+1>2”的合力,为中国AI全产业链突围筑牢根基。
最近一周,半导体成为A股表现最强的板块。上半年利润仅10亿的寒武纪,以超过6000亿的市值跃居科创板首位,滚动市盈率高达500余倍,股价也一度超过茅台成为A股“股王”。
XM外汇用户评价:
引爆市场情绪的,是上周DeepSeek V3.1的发布——准确来说,甚至不是这款模型的能力本身,而是短短不到20个字的一则官方留言:“UE8M0 FP8是针对即将发布的下一代国产芯片设计。”
事实上,
UE8M0 FP8,立即成了国产AI技术突破的最新代名词。
XM外汇消息:
在一周高涨的情绪之后,今天的市场出现正常回落。而与之相伴的,是中芯国际冷暖参半的半年报——上半年营收增长22%,Q2产能利用率高达92.5%,中国区收入占比提升至84.2%;但单看二季度,净利润和毛利润都出现下滑。
容易被误解的是,
事实上,如果把DeepSeek、寒武纪、中芯国际们近期的一系列信息串联起来,大家在欣喜于其进步之余,也能够看到国产AI生态仍受到严重限制,距离世界先进水平仍有差距。
从某种意义上讲,
但更大的惊喜在于,中国产业链的协同程度正在迅速提升。
总的来说,
DeepSeek到底干了什么
反过来看,
UE8M0 FP8,这串如同乱码一般的字符,究竟有什么魔力?
大家不妨先从FP8说起。
与其相反的是,
FP8是一种8位浮点数,其基本原理是用较少的字符来表示更难办的数字,这对于采纳二进制语言的计算机来说是非常核心的。
XM外汇消息:
这是由于,二进制数字只有0和1两个字符,一个较短的十进制数字,写成二进制可能会变得很长。举个例子,一个随机的十进制数字56.89,如果直接转化计算机采纳的二进制数字,是111000.11100011,字符非常多,也就意味着会占用更多存储空间。
综上所述,
那么为了节省字符,人们发明了浮点数。
请记住,
具体来说,所谓浮点数,是指一种特殊的数字表示格式,其基本格式是把数字a写成m×b^e的形式。
据报道,
例如,上述的111000.11100011,能够写成1.1100011100011×2⁵。如果大家愿意损失一定的精度,规定小数点后只保留3位,就约等于1.110×2⁵。这样一来,只需要记录下小数点后的110和5次幂这两个信息,就能还原出原来的数字了,存储空间占用量大大减少。
根据公开数据显示,
FP8就是这样一种记录方法,规定用8位二进制数来记录上述信息。例如拿出4位数记录幂值,另外3位数来记录110,剩下1位数记录正负。这种格式叫做E4M3 FP8。
但是这里面仍然有个疑问:当数字比较大时,幂值会变大,而4位二进制数最大仅相当于十进制的15,更大幂值就无法记录。E4M3 FP8最大就只能记录十进制-480到+480之间的数字。
XM外汇快讯:
想要表示更大数字,就要增加用于记录幂值的字符,减少记录前面数字的字符,但这会导致精确度继续变差。
请记住,
而UE8M0 FP8,就意味着把全部8位数字都用来记录幂值,而完全舍弃小数点后的信息,以及正负值。
换句话说,UE8M0 FP8只能记录2,4,8,16……这样2的整数次幂,其它数字都只能近似成这些数字,极大地牺牲了精度,以换取存储范围。
必须指出的是,
理解了这一点,大家就能够来讨论DeepSeek为什么要采纳UE8M0 FP8。
大模型的基本原理,是把文字、图像等信息,全部用数字来表示,并预测哪些数字的相关性更高。
可能你也遇到过,
这些数字,就是人们常说的参数,而参数自然是范围越大、越精确越好。
想要范围和精度两者兼得,就需要用更多的二进制字符来记录。因此,过去很多大模型会采纳FP16、FP32等格式,这意味着更大的存储量和算力消耗。
站在用户角度来说,
而DeepSeek V3和R1这样的模型,之故而能够降低算力成本,就是由于采纳了FP8,以牺牲精度来换取速度。
其实,
但是,这种牺牲真的不可避免吗?这就要说到UE8M0了。
XM外汇专家观点:
事实上,DeepSeek并非所有数据都采纳UE8M0格式。如前所述,UE8M0的极端取舍,导致精度极差,是难以满足大模型训练需求的。
据业内人士透露,
DeepSeek所做的,是引入UE8M0作为“缩放因子”,采纳了microscaling的方法。不难办理解,其参数仍然以E4M3 FP8等格式存储,以保证精度,并通过与另一个UE8M0 FP8数字相乘的方法,实现类似FP32的效果,并节省75%的存储需求。
有分析指出,
这种做法尽管增加了算法的难办程度,但是仅仅在必要时才去做计算,仍然能够大大节省算力和通信带宽需求。
XM外汇消息:
这对于算力受到严重限制的国内大模型行业来说,自然是极为契合的思路。
国产芯片“补课”
不可忽视的是,
但是,大家也无需过度拔高DeepSeek V3.1的独创程度。
早在2023年,Meta、英特尔、谷歌等科技巨头推动的“开放计算项目(OCP)”就提出了MXFP8的microscaling数据格式标准,以UE8M0作为缩放因子,而英伟达显卡也早已接受UE8M0。国内的阿里、腾讯、百度等头部大厂,也都参与了这个项目。
其实,
2023年10月,OCP全球峰会在美国加州圣何塞举办
必须指出的是,
2023年,英伟达首席科学家比尔·戴利曾指出,驱动英伟达芯片性能大幅提升的秘密,已经不是芯片制程驱动的“摩尔定律”,而是数据格式等因素共同驱动的“黄氏定律”,即通过引入较低精度的数字表示法,来减少对存储空间和计算资源的消耗,从而能够加快计算速度和效率。英伟达H100等显卡,就已经着手接受FP8格式。
如果把目光放到学术界,英伟达和加州理工的研究人员更是在2021年时就曾经发表过一篇论文《LNS-Madam:在对数数值系统中采用乘法式权重更新的低精度训练》,提出了类似的数据转换方法。
与其相反的是,
DeepSeek今年2月发布的高性能计算库DeepGEMM中,也采纳了UE8M0缩放因子。DeepGEMM正是针对英伟达显卡所做的优化,而国产显卡当时却普遍并不接受这种格式。
XM外汇消息:
以至于当DeepSeek V3和R1问世时,国产显卡需要借助软件优化将FP8格式转化成FP16,适配效果大打折扣。
站在用户角度来说,
因此,DeepSeek此次透露的信息,或许重点并不在前半部分的UE8M0,而是后半部分的“针对下一代国产芯片设计”。
XM外汇用户评价:
近期,摩尔线程、芯原等国产芯片厂商也同步释放了适配UE8M0 FP8的消息。
根据公开数据显示,
摩尔线程对观察者网指出,其旗舰产品MTT S5000是国内首批原生接受FP8并已大规模量产的GPU。摩尔线程的MUSA架构原生接受硬件FP8张量加速计算,能够完美接受UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。
XM外汇资讯:
摩尔线程在WAIC 2025上发布了MTT S5000
但需要注意的是,尽管国产芯片逐步着手接受FP8格式,由于不同品牌显卡在底层硬件架构上的差异,原本针对英伟达显卡设计的算法也并非能够直接移植到国产芯片上。因此,大模型针对国产芯片的适配调整仍是一项核心工作。
从某种意义上讲,
“补课”,或许才是对现阶段工作更合适的表述。
必须指出的是,
这或许也解释了为什么DeepSeek R2延宕许久尚未问世。
可能你也遇到过,
因此,DeepSeek V3.1真正的意义,应该不是对UE8M0 FP8这种数据格式本身的应用,而是类似于DeepGEMM这样针对国产芯片的软件链设计。
综上所述,
而且,DeepSeek特意提到是针对“下一代国产芯片”,这意味着国产大模型厂商与芯片厂商之间的协同配合达到了更高的层次, XM外汇开户 双方能够在硬件开发阶段就共同参与优化。
摩尔线程对观察者网表示,此举能够充分发挥出已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2。
来自XM外汇官网:
生态协同新高度
事实上,谈到国产大模型与芯片的协同开发,DeepSeek也不是唯一的参与者。
很多人不知道,
一方面,头部大厂往往已经通过自建生态的方法,早早布局软硬件协同,如华为昇腾、阿里平头哥、百度昆仑芯等。
本周,百度发布了百舸AI计算平台5.0,基于昆仑芯实现超节点,并针对DeepSeek引领的强化学习风潮,推出强化学习框架,极致压榨算力资源。
根据公开数据显示,
2025百度云智大会上,百度智能云正式发布百度百舸AI计算平台5.0全新版本。
XM外汇用户评价:
而更多的大模型初创公司,则通过与芯片厂商联合的方法来提升适配效率。
综上所述,
今年7月,阶跃星辰联合近10家芯片及基础设施厂商发起“模芯生态创新联盟”,首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。
XM外汇快讯:
阶跃星辰联合创始人、副总裁朱亦博对观察者网指出,一款芯片的开发周期需要两年以上,而如今模型迭代的速度只有半年到一年,如果让芯片厂商去适配模型,必然是低效的。如今,阶跃星辰希望在国产芯片的开发阶段,就主动去进行适配,是一种更高效的方法。
但大家也要清醒地看到,国产算力生态仍然处于一种“带着镣铐跳舞”的状态。
从中芯国际的财报能够看到,尽管国内旺盛的需求推动其产能利用率不断攀升,并且还有大规模扩产计划,但是其主要业务仍来自成熟制程。因此,其业绩并如台积电那样未充分受益于当下的算力热潮。
包括制程能力、HBM技术等限制,也让国产AI产业往往采用极限创新的方法,在硬件受限的情况下用更高的成本、更难办的算法来压榨效率。
反过来看,
例如,华为不得不采纳384个超多节点、昂贵的光通信等方法来对标英伟达的NVLink72。其AI推理加速“黑科技”UCM,也是在HBM受限的情况下,主要针对“节流”进行的创新;而原理类似的英伟达Dynamo,则更多聚焦于发挥高端算力集群的能力。
与其相反的是,
近期华为盘古大模型遭遇的争议和收缩,也显示出中国企业尚难以凭借单打独斗去全方位赢得全球AI竞争。以开放和协同的方法汇聚国内全部力量,才是更好的突围之道。
据相关资料显示,
因此,近期国产AI产业一系列突破固然令人欣喜,但仍然要看到,其真正意义并非在于单点的进步,而是在于产业链上下游的信任和协作达到了一个新的高度,为未来中国全产业链的领先打下坚实基础。
来自XM外汇官网:
返回搜狐,查看更多