有分析指出，Claude 4空降！AI编程真神登场，连续7小时自主编程，写代码效率拉满

发表评论

A+

所属分类：科技

摘要

智东西5月23日报道，今天凌晨，美国大模型独角兽Anthropic在其首届开发者大会上正式发布了下一代Claude模型：Claude Opus4和Claude Sonnet 4，这也是Claude自202…” />

智东西

作者 | 陈骏达

编辑 | 心缘

智东西5月23日报道，今天凌晨，美国大模型独角兽Anthropic在其首届开发者大会上正式发布了下一代Claude模型：Claude Opus 4和Claude Sonnet 4，这也是Claude自2024年6月以来的首次大版本号更新。

Anthropic将Claude Opus 4称之为“世界上最好的编程模型”，能在棘手、长时间运行的任务和智能体工作流中表现出稳定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升级，以编程和推理能力为核心，同时能更精确地响应客户提示词。这两款模型均为混合模型，供给两种模式：即时回复和用于更深入推理的扩展思考（extended thinking）。

在权威编程基准测试SWE-bench Verified上，开启扩展思考的Claude Opus 4与Claude Sonnet 4的得分分别为79.4%和80.2%，大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。

展开全文

在编程、插件执行、视觉推理、数学等领域的基准测试中，这两款模型超越了OpenAI o3，而在多语言问答、研究生级别推理任务上，Claude Opus 4与OpenAI o3得分持平。新模型的智能体能力迎来升级，最高可独立运行7小时，并推出了文件API、提示词缓存等新作用。

Pro、Max、Team和Enterprise Claude订阅客户可执行上述两款Claude模型及其扩展思考模式，Sonnet 4可供免费客户执行。

这两款模型都可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上调用，定价与之前的Opus和Sonnet模型保持一致：Claude Opus 4为每百万个token 15美元/75美元（输入/输出），Claude Sonnet 4为3美元/15美元。

Anthropic还同期发布了AI编程助手Claude Code，这一编程助手接入了Claude Opus 4模型，能实时映射和解释百万行级别的代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE和命令行插件集成，可直接嵌入至开发终端中。这一编程助手供给按量计费、每月100美元和每月200美元的3种订阅方案。

一、开场2分钟甩出重磅新模型，Claude未来更新频率将加速

在Code with Claude开发者大会上，Anthropic创始人Dario Amodei在开场2分钟时快步走上台，并未做任何铺垫，便直接甩出了最大的惊喜——Claude 4系列模型的发布。

Amodei称，Anthropic已经有一段时间没有更新Opus模型了，Anthropic对Opus的定位是旗下最强大、最智能的模型，而Sonnet是客户过去大约一年来一直在执行的中等水平模型。

Claude Opus 4在多项基准测试上的成绩并未明显高于Claude Sonnet 4，甚至略低于后者。Amodei强调，对于Claude Opus 4这样的大型模型，基准测试并不能完全体现其能力。

在Anthropic供给给客户的预览中，Claude Opus 4承认在Anthropic内部自主完成一些通常需要人类花费6到7小时的任务，Anthropic内部一些最资深的工程师都对其带来的生产力提升感到惊讶。

Claude Sonnet 4在多项编程基准测试中的表现与Claude Opus 4持平，但前者更为精简，专注于编程等特定任务。Claude Sonnet 4还化解了Claude Sonnet 3.7在实际执行过程中出现的种种状况，包括过度热情（倾向于做出超出客户要求的事情）与奖励机制状况。

Amodei称，Anthropic会继续改进Claude系列模型，定期发布可能的小版本更新，理想情况下，会比之前发布的频率还要高。

二、智能体能力迎升级，最高可独立运行7小时

Anthropic首席产品官、Instagram联合创始人Mike Krieger详细分享了更多Claude 4的相关情况。

Krieger称，Claude Opus 4擅长理解代码库并规划添加信息，从迁移、代码重构到最棘手的智能体工作流方面都非常高效且准确。

Claude Sonnet 4在日常编码任务、应用程序开发和配对编程方面表现出色。它也适用于高流量用例，平衡了效率和性能，承认被视为“全天候”编码伙伴。

Claude 4系列模型为打造能执行插件的智能体升级了关键的新作用。现在，Claude 4系列模型承认并行处理多种插件，当被授予访问本地文件的权限时，它们甚至承认在会话之间保持记忆，随着时间的推移积累知识。

Krieger回忆，在加入Anthropic后 XM官网不久，他们曾凭借Claude的帮助，仅用3人团队成功完成亚马逊Alexa语音助手原型的打造，Krieger这位“前工程师”也重拾代码亲自上阵。这次合作最终使Claude成为Alexa Plus的核心模型之一。

这段经历让Krieger更坚信AI协作的潜力。如今，AI已不仅是插件，而是真正的智能协作伙伴，持续推动技术边界。Krieger提出了Anthropic认为的理想智能体三大核心能力：

（1）情境智能：理解组织背景，通过经验优化表现，像优秀员工一样越用越好；

（2）长期执行：独立处理棘手任务数小时，智能协调资源；

（3）深度协作：自然交互、适应工作风格，并保持决策透明。

为实现上述三大能力，Anthropic推出了更多新升级。

Claude现在承认通过Anthropic API上的新代码执行插件运行代码，而不仅仅是编写代码，能够载入数据集、清理数据、生成探索性图表，并实时分析异常情况。在与Claude 4模型结合后，代码执行插件承认处理棘手任务，节省大量时间。

Claude 4系列模型的自主性进一步提升，Claude 3.7最多可自主运行45分钟，而Claude 4承认独立运行数小时，最高达到7小时。新模型通过管理待办事项列表保持记忆，不会丢失线索。

Anthropic强调，智能体的广泛采用需要提高模型对保密信息、决策和协调的判断力。如今，Claude模型的每个作用都包含架构放心检查点和控制措施，确保模型在生产环境中的可靠性。

智能体的落地还需要访问现实世界的信息，并与现有系统的连接，为了帮助智能体进一步扩展，Anthropic推出了4项相互关联的新作用。

首先，开发者现在承认直接通过Anthropic API链接MCP协议（模型上下文协议）。如今，MCP协议被微软、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等众多公司采用，Anthropic认为MCP有望为智能体经济奠定基础。

其次，网络搜索为Claude供给了对当前信息的实时访问。这是一种智能数据增强，允许Claude分析当前事件、市场趋势和新兴技术，与MCP作用结合执行时也非常强大。

第三，文件API今天起在Anthropic API中可用。文件API允许Claude读取和写入记忆文件，在长时间任务中保持上下文连续性。Anthropic配套发布“记忆作用食谱”，指导开发者如何集成到应用中。

最后，提示缓存作用迎来升级，TTL（生存时间）从5分钟提升至1小时，这最多能将模型的执行成本降低90%，延迟减少85%，尤其适用于长提示词场景、长时间运行的智能体工作流和需要频繁调用相同上下文的重复性任务。

Anthropic还显著减少了Claude 4模型执行快捷方法或漏洞完成任务的行为。与 Sonnet 3.7 相比，这种行为的可能性降低了65%。

Claude Opus 4在内存能力方面的表现也大大优于所有以前的型号。当开发人员构建供给Claude本地文件访问的应用程序时，Opus 4承认熟练地创建和维护“内存文件”来存储关键信息。这承认解锁更好的长期任务意识、连贯性和代理任务的性能——例如 Opus 4 在玩Pokémon时创建“导航指南”。

Claude 4模型还推出了思维链总结作用，可执行较小的模型来浓缩冗长的思维过程。

三、编程助手全面开放，整合至主流开发平台

Claude Code在今天迎来全面开放，从研究预览转为正式产品。Claude Code产品经理Cat Wu分享说，除了接入最新模型之外，Claude Code还推出了多项新作用。

Claude Code现已与VS Code和JetBrains等主流IDE集成，在执行过程中，开发者承认直接在编辑器中实时查看Claude Code建议的代码改动。

Anthropic还发布了Claude Code SDK，让开发者能够将Claude Code作为构建块融入自己的应用和工作流。为了展示其潜力，Anthropic在GitHub上开源了一个示例项目：客户承认直接在Pull Request和Issue中@Claude，它将自动响应审阅意见、修复错误并添加新作用。

通过这些更新，Claude Code已经能够覆盖大部分工作场景，无论是在终端中进行深度开发、在GitHub上处理远程协作、通过SDK构建自动化工作流，还是在IDE中进行代码审查。

演示环节中，Claude Code迅速完成了开源插件Excalidraw的表格组件作用开发。Claude Code会创建任务清单，探索代码库并生成代码，运行测试并提交Pull Request。它还能通过GitHub Actions自动更新文档。短短10分钟，Claude Code完成了通常需要数小时的棘手任务，极大地提升了开发效率。

由Claude Code SDK驱动的Claude Code和GitHub Actions现已可用，只需在运行命令即可安装。VS Code和JetBrains的Web IDE扩展也同步推出测试版，在IDE中运行命令即可安装。

结语：两条Scaling Law路径持续有效，未来1年将见证编程革命

Amodei称，Claude Sonnet 3.7发布仅两个半月，却感觉像过了一年，这足见AI领域的发展之快。他强调，Claude 4的模型能力来自预训练和后训练的共同进步，预训练Scaling Law依然有效，后训练技术也在同步发展，二者相辅相成。

展望未来AI领域的发展，Amodei认为大家会在未来一年大家将见证编程领域的革命，从Claude Code出发，大家将进入“智能体舰队”时代，成批的智能体会将软件开发自动化，定制化软件的成本显著降低，这将重塑开发者、企业和初创公司的角色。返回搜狐，查看更多