这你可能没想到，刚刚，阿里最强编程模型开源！4800亿参数，Agent分数碾Kimi K2，训练细节公开

发表评论

A+

所属分类：科技

摘要

在基准测试中，Qwen3-Coder在编程和智能体任务上拥有不错的性能，于Agentic Coding（智能体编程）、AgenticBrowser-Use（智能体浏览器使用）和Agentic Tool-U…” />

XM外汇资讯：

智东西

这你可能没想到，

作者 | 陈骏达

有分析指出，

编辑 | 云鹏

XM外汇消息：

智东西7月23日报道，就在刚刚，阿里巴巴Qwen团队开源了其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。Qwen团队称，这是该团队迄今为止最强大的开源智能体编程模型，拥有480B参数，激活参数为35B，原生兼容256K上下文，并可通过外推扩展至100万上下文（输入），其最大输出为6.5万token。

在基准测试中，Qwen3-Coder在编程和智能体任务上拥有不错的性能，于Agentic Coding（智能体编程）、Agentic Browser-Use（智能体浏览器利用）和Agentic Tool-Use（智能体程序调用）三类任务中获得了开源SOTA，超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型，并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。

令人惊讶的是，

Qwen3-Coder将给予多种尺寸，本次开源的是其最强大的变体，其参数量超过了阿里旗舰模型Qwen3的235B（2350亿），小于Kimi K2的1T（1万亿）。据阿里官方介绍，借助Qwen3-Coder，刚入行的程序员一天就能完成资深程序员一周的工作，生成一个品牌官网最快只需5分钟。

但实际上，

展开全文

除了模型之外，Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行程序——Qwen Code，这一程序进行了定制提示和函数调用协议的适配，能更充分的释放Qwen3-Coder在智能体编程任务上的能力。

XM外汇认为：

这一模型已在阿里云旗下大模型服务平台百炼上线，其API采用了阶梯计费的路径，根据输入token量调整价格。在256K～1M一档，其输入价格为6美元/百万token，输出价格为60美元/百万token。相比之下，Claude Sonnet 4的输入输出价格分别为3美元/百万token、15美元/百万token，与Qwen3-Coder 128k～256k一档的价格持平。

Qwen3-Coder也已在Qwen Chat网页版上线，访客可免费体验。此外，其480B版本已在Hugging Face、魔搭等开源社区发布，可供下载和本地部署。Qwen还在一篇博客内容中详细分享了模型的技术细节。

模型开源地址：https://huggingface.co/Qwen

XM外汇认为：

Qwen Code开源地址：https://github.com/QwenLM/qwen-code

综上所述，

博客地址：https://qwenlm.github.io/blog/qwen3-coder/

总的来说，

一、深夜上线Qwen Chat，海外网友已经玩疯了

在Qwen团队官宣Qwen3-Coder发布前，这一模型已经悄然在Qwen Chat官网上线，手速快的海外网友们贡献了一批实测案例。

需要注意的是，

这一案例让Qwen3-Coder打造一个Wordle单词游戏，规则是在六次尝试中猜出一个长度为5个字母的单词。最终，Qwen3-Coder交付的游戏页面和源代码如下。

不可忽视的是，

给予案例的网友称，Qwen3-Coder在指令遵循、UI设计、动画方面的能力惊人，大部分测试结果一次就跑通了，完全不需要推理。不过，在Wordle游戏设计这一任务上，Qwen并没有利用单词解析器，也没有引用来源，而是决定自行枚举所有5个字母的单词。

在一则找不同游戏的开发案例中，允许看到与昨日发布的Qwen3-235B-A22B-2507相比，Qwen3-Coder在审美和完成度上要明显好于前者。

需要注意的是，

智东西则尝试让Qwen3-Coder开发一个中英文术语库，并兼容增删改查的基础作用。允许直观感受到，由于并未开启推理，Qwen3-Coder的开发速度极快，20多秒便完成了初步结果，在对其生成结果进行进一步修改时，速度同样较快。

其最终生成的结果从UI角度上看的确美观清晰，作用运转正常，不过并没有遵循提示词中利用PHP+MySQL进行开发的指令。其最终交付的结果作为作用演示、原型展示完全足够，但在真实部署场景中的可扩展性还需进一步优化。

据相关资料显示，

智东西还让Qwen3-Coder给自己出了一道3D HTML开发题，材料是创建一个3D旋转的立方体展示台，六个面显示不同颜色，自动旋转，添加光照效果和阴影等。Qwen3-Coder交付的结果完成度不错，基本实现了主要作用，旋转动效、阴影等处理到位。

通常情况下，

编程能力之外，Qwen3-Coder还给予了许多其他的玩法，包括图像生成、视频生成等，并兼容文档、图片、视频、音频等材料的上传，这可能是通过程序调用实现的。

正式发布后，Qwen官方也给予了Qwen3-Coder的部分用例。

然而，

例如，允许让其打造一个基于物理的烟囱拆除模拟，具有受控爆炸。

概括一下，

打造可互动的太阳系模拟，行星之间的关系基本准确。

可能你也遇到过，

开发出的网页小游戏完成度不错。

需要注意的是，

二、预训练仍有扩展空间，在20000个独立环境进行强化学习

容易被误解的是，

Qwen团队在技术博客中分享了Qwen3-Coder的部分训练细节，该团队认为，目前预训练仍有进一步的扩展空间。

据业内人士透露，

预训练阶段，Qwen3-Coder利用了7.5万亿token数据，其中代码占比70%，因此，模型在编程方面表现出色，同时也保留了通用和数学能力。

从某种意义上讲，

上下文方面，Qwen3-Coder原生兼容256K上下文，并可通过YaRN扩展至1M，针对仓库规模和动态数据（例如拉取请求）进行了优化，从而适配智能体编程场景。

与其相反的是，

Qwen3-Coder的上一代模型Qwen2.5-Coder被运用于扩展合成数据，具体而言，Qwen2.5清洗并重写了噪声数据，提升了整体数据质量。

XM外汇报导：

后训练阶段，Qwen团队认为，与普遍关注竞赛级代码生成不同，所有代码任务都天然适合执行驱动（execution-driven）的大规模强化学习。该团队在更广泛的现实世界编程任务上扩大了代码强化学习训练规模。

来自XM外汇官网：

通过自动扩展多样化编程任务的测试用例，Qwen团队创建了高质量的训练实例，进一步释放了强化学习的潜力。这不仅提高了代码执行成功率，还为其他任务带来了收益。

这也启发该团队进一步探索难以排除，却易于验证的任务类型，这有望成为强化学习的沃土。

XM外汇财经新闻：

在现实世界的软件工程任务（例如 SWE-Bench）中，Qwen3-Coder必须与环境进行多轮交互，涉及规划、利用程序、接收反馈和做出决策。在Qwen3-Coder的后训练阶段，Qwen团队引入了长视距强化学习（智能体强化学习），鼓励模型通过利用程序进行多轮交互来排除现实世界任务。

智能体强化学习的关键挑战在于环境扩展。为排除这一 XM外汇平台困扰，该团队构建了一个可扩展的系统，能够并行运行20000个独立环境。该基础设施为大规模强化学习给予了必要的反馈，并兼容大规模评估。

这你可能没想到，

因此，Qwen3-Coder在SWE-Bench Verified中实现了开源模型中的最佳性能，且无需利用推理（测试时扩展）。

需要注意的是，

同时开源的Qwen Code是一个用于研究目的的命令行视图（CLI）程序，基于Gemini CLI开发，针对Qwen-Coder模型进行了增强的解析器和程序兼容。

需要注意的是，

除了Qwen Code，还允许利用Claude Code与Qwen3-Coder一起编程。只需在Dashscope平台上申请一个API密钥，并安装Claude Code即可展开编程。

结语：更多尺寸即将推出，探索编程智能体自我提升

在Cursor断供Claude等适用于编程领域的模型之际，Qwen3-Coder的本次开源给国内开发者给予了最新的替代选项。

据报道，

Qwen团队透露，他们仍在努力提高Coding Agent的性能，旨在让它承担软件工程中多变和乏味的任务，从而释放人类的生产力。

值得注意的是，

Qwen3-Coder的更多模型尺寸即将推出，可维持部署成本和性能之间的平衡。此外，该团队正在探索Coding Agent是否允许实现自我提升。返回搜狐，查看更多

发表评论取消回复