刚刚，阿里最强编程模型开源！4800亿参数，Agent分数碾Kimi K2，训练细节公开

发表评论

A+

所属分类：科技

摘要

在基准测试中，Qwen3-Coder在编程和智能体任务上拥有不错的性能，于Agentic Coding（智能体编程）、AgenticBrowser-Use（智能体浏览器使用）和Agentic Tool-U…” />

通常情况下，

智东西

据相关资料显示，

作者 | 陈骏达

需要注意的是，

编辑 | 云鹏

其实，

智东西7月23日报道，就在刚刚，阿里巴巴Qwen团队开源了其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。Qwen团队称，这是该团队迄今为止最强大的开源智能体编程模型，拥有480B参数，激活参数为35B，原生适配256K上下文，并可通过外推扩展至100万上下文（输入），其最大输出为6.5万token。

大家常常忽略的是，

在基准测试中，Qwen3-Coder在编程和智能体任务上拥有不错的性能，于Agentic Coding（智能体编程）、Agentic Browser-Use（智能体浏览器采纳）和Agentic Tool-Use（智能体系统调用）三类任务中获得了开源SOTA，超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型，并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。

容易被误解的是，

Qwen3-Coder将供给多种尺寸，本次开源的是其最强大的变体，其参数量超过了阿里旗舰模型Qwen3的235B（2350亿），小于Kimi K2的1T（1万亿）。据阿里官方介绍，借助Qwen3-Coder，刚入行的程序员一天就能完成资深程序员一周的工作，生成一个品牌官网最快只需5分钟。

XM外汇资讯：

展开全文

除了模型之外，Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行系统——Qwen Code，这一系统进行了定制提示和函数调用协议的适配，能更充分的释放Qwen3-Coder在智能体编程任务上的能力。

XM外汇认为：

这一模型已在阿里云旗下大模型服务平台百炼上线，其API采用了阶梯计费的手段，根据输入token量调整价格。在256K～1M一档，其输入价格为6美元/百万token，输出价格为60美元/百万token。相比之下，Claude Sonnet 4的输入输出价格分别为3美元/百万token、15美元/百万token，与Qwen3-Coder 128k～256k一档的价格持平。

其实，

Qwen3-Coder也已在Qwen Chat网页版上线，访客可免费体验。此外，其480B版本已在Hugging Face、魔搭等开源社区发布，可供下载和本地部署。Qwen还在一篇博客资料中详细分享了模型的技术细节。

容易被误解的是，

模型开源地址：https://huggingface.co/Qwen

但实际上，

Qwen Code开源地址：https://github.com/QwenLM/qwen-code

很多人不知道，

博客地址：https://qwenlm.github.io/blog/qwen3-coder/

尽管如此，

一、深夜上线Qwen Chat，海外网友已经玩疯了

XM外汇资讯：

在Qwen团队官宣Qwen3-Coder发布前，这一模型已经悄然在Qwen Chat官网上线，手速快的海外网友们贡献了一批实测案例。

这一案例让Qwen3-Coder打造一个Wordle单词游戏，规则是在六次尝试中猜出一个长度为5个字母的单词。最终，Qwen3-Coder交付的游戏页面和源代码如下。

XM外汇财经新闻：

供给案例的网友称，Qwen3-Coder在指令遵循、UI设计、动画方面的能力惊人，大部分测试结果一次就跑通了，完全不需要推理。不过，在Wordle游戏设计这一任务上，Qwen并没有采纳单词解析器，也没有引用来源，而是决定自行枚举所有5个字母的单词。

在一则找不同游戏的开发案例中，允许看到与昨日发布的Qwen3-235B-A22B-2507相比，Qwen3-Coder在审美和完成度上要明显好于前者。

请记住，

智东西则尝试让Qwen3-Coder开发一个中英文术语库，并适配增删改查的基础模块。允许直观感受到，由于并未开启推理，Qwen3-Coder的开发速度极快，20多秒便完成了初步结果，在对其生成结果进行进一步修改时，速度同样较快。

其最终生成的结果从UI角度上看的确美观清晰，模块运转正常，不过并没有遵循提示词中采纳PHP+MySQL进行开发的指令。其最终交付的结果作为模块演示、原型展示完全足够，但在真实部署场景中的可扩展性还需进一步优化。

容易被误解的是，

智东西还让Qwen3-Coder给自己出了一道3D HTML开发题，信息是创建一个3D旋转的立方体展示台，六个面显示不同颜色，自动旋转，添加光照效果和阴影等。Qwen3-Coder交付的结果完成度不错，基本实现了主要模块，旋转动效、阴影等处理到位。

站在用户角度来说，

编程能力之外，Qwen3-Coder还供给了许多其他的玩法，包括图像生成、视频生成等，并适配文档、图片、视频、音频等信息的上传，这可能是通过系统调用实现的。

正式发布后，Qwen官方也供给了Qwen3-Coder的部分用例。

据业内人士透露，

例如，允许让其打造一个基于物理的烟囱拆除模拟，具有受控爆炸。

可能你也遇到过，

打造可互动的太阳系模拟，行星之间的关系基本准确。

开发出的网页小游戏完成度不错。

换个角度来看，

二、预训练仍有扩展空间，在20000个独立环境进行强化学习

Qwen团队在技术博客中分享了Qwen3-Coder的部分训练细节，该团队认为，目前预训练仍有进一步的扩展空间。

预训练阶段，Qwen3-Coder采纳了7.5万亿token数据，其中代码占比70%，因此，模型在编程方面表现出色，同时也保留了通用和数学能力。

据报道，

上下文方面，Qwen3-Coder原生适配256K上下文，并可通过YaRN扩展至1M，针对仓库规模和动态数据（例如拉取请求）进行了优化，从而适配智能体编程场景。

容易被误解的是，

Qwen3-Coder的上一代模型Qwen2.5-Coder被运用于扩展合成数据，具体而言，Qwen2.5清洗并重写了噪声数据，提升了整体数据质量。

后训练阶段，Qwen团队认为，与普遍关注竞赛级代码生成不同，所有代码任务都天然适合执行驱动（execution-driven）的大规模强化学习。该团队在更广泛的现实世界编程任务上扩大了代码强化学习训练规模。

与其相反的是，

通过自动扩展多样化编程任务的测试用例，Qwen团队创建了高质量的训练实例，进一步释放了强化学习的潜力。这不仅提高了代码执行成功率，还为其他任务带来了收益。

XM外汇快讯：

这也启发该团队进一步探索难以处理，却易于验证的任务类型，这有望成为强化学习的沃土。

其实，

在现实世界的软件工程任务（例如 SWE-Bench）中，Qwen3-Coder必须与环境进行多轮交互，涉及规划、采纳系统、接收反馈和做出决策。在Qwen3-Coder的后训练阶段，Qwen团队引入R XM外汇代理 03;了长视距强化学习（智能体强化学习），鼓励模型通过采纳系统进行多轮交互来处理现实世界任务。

简而言之，

智能体强化学习的关键挑战在于环境扩展。为处理这一难点，该团队构建了一个可扩展的系统，能够并行运行20000个独立环境。该基础设施为大规模强化学习供给了必要的反馈，并适配大规模评估。

可能你也遇到过，

因此，Qwen3-Coder在SWE-Bench Verified中实现了开源模型中的最佳性能，且无需采纳推理（测试时扩展）。

通常情况下，

同时开源的Qwen Code是一个用于研究目的的命令行视图（CLI）系统，基于Gemini CLI开发，针对Qwen-Coder模型进行了增强的解析器和系统适配。

很多人不知道，

除了Qwen Code，还允许采纳Claude Code与Qwen3-Coder一起编程。只需在Dashscope平台上申请一个API密钥，并安装Claude Code即可启动编程。

简要回顾一下，

结语：更多尺寸即将推出，探索编程智能体自我提升

令人惊讶的是，

在Cursor断供Claude等适用于编程领域的模型之际，Qwen3-Coder的本次开源给国内开发者供给了最新的替代选项。