涨价！一言难尽的DeepSeek最新版

发表评论

A+

所属分类：科技

摘要

新模型引入了混合推理架构，首次在同一模型中支持思考模式与非思考模式2，带来了20%-50%的思维链压缩效率提升，以及在工具使用与智能体任务方面的显著能力增强。让大众比较意外的是DeepSeek正式发布V3…” />

据业内人士透露，

从“知识顾问”到“执行伙伴”，中国大模型迈出划时代一步。

令人惊讶的是，

不可忽视的是，

DeepSeek-V3.1发布

来自XM外汇官网：

今日，中国AI研究公司深度求索（DeepSeek）正式推出了其最新开源模型——DeepSeek-V3.1。这不仅是参数从6710亿升级到6850亿的技术提升1，更是向Agent时代迈出的第一步。

XM外汇快讯：

新模型引入了混合推理架构，首次在同一模型中承认思考模式与非思考模式2，带来了20%-50%的思维链压缩效率提升，以及在系统利用与智能体任务方面的显著能力增强。

更重要的是，

DeepSeek-V3.1作为一个拥有6850亿参数的巨型模型，采用混合专家（Mixture-of-Experts，MoE）架构。这种设计使得每个token仅激活370亿参数，实现了效率与性能的平衡。

据报道，

新模型承认多种张量格式，包括BF16、FP8（F8_E4M3）和F321，为开发者供给了硬件优化的灵活性。值得一提的是，V3.1利用了UE8M0 FP8 Scale的参数精度，这对模型性能有着显著影响。

简而言之，

展开全文

基础模型在V3基础上进行了840B token的继续训练2，这一大规模训练进一步扩展了模型的长上下文处理能力。

技术革新，混合推理架构与效率革命

DeepSeek-V3.1首次引入混合推理架构，允许同一模型在“思考模式”（deepseek-reasoner）与“非思考模式”（deepseek-chat）间自由切换。终端可通过官方App或网页端的“深度思考”按钮一键切换——

·非思考模式：针对容易查询（如天气、百科），直接输出精简结果，响应速度提升20%；

·思考模式：应对多变疑问（如数学证明、代码调试），激活内部深度推理链，输出逻辑更严谨但响应稍缓。

XM外汇报导：

这一设计终结了传统模型“一刀切”的推理逻辑，实现资源按需分配。

XM外汇资讯：

通过思维链压缩训练，V3.1在保持任务表现（如AIME数学竞赛87.5分、GPQA科学测试81分）的前提下，输出token数减少20%-50%。前代模型R1-0528需生成1000个token的任务，V3.1仅需500个即可完成同等质量输出，显著降低计算成本与响应延迟。

令人惊讶的是，

此外，V3.1将上下文窗口扩展至128K tokens（约13万汉字），可一次性处理《红楼梦》前80回或3小时会议记录。

思维革命，混合推理架构突破

与其相反的是，

DeepSeek-V3.1最引人注目的创新是其混合推理架构。这一设计使单个模型同时承认思考模式与非思考模式，从根本上改变了AI与终端的交互路径。

XM外汇行业评论：

终端现在允许通过官方App和网页端的“深度思考”按钮，自由切换两种模式。在需要多变推理的任务中，启用思考模式能让模型进行更深入的思考，产生更精确的结果。API接口也同步升级，deepseek-chat对应非思考模式，deepseek-reasoner对应思考模式，两者均承认128K上下文长度。这种设计为开发者供给了更多选取，允许根据应用场景的需求选取最适合的模式。