总的来说，GPT-5离“神级AI”还有多远？

发表评论

A+

所属分类：科技

摘要

这是OpenAI近年来最受关注的一次升级，其CEO萨姆·奥特曼（Sam Altman）在发布会上宣称，GPT-5的能力已从“大学生水平”跃升至“博士级专家”，并强调该模型在综合能力上已达到全球最高。“专业”…” />

站在用户角度来说，

文 | 定焦One，作者 | 王璐，编辑 | 魏佳

文 | 定焦One，作者 | 王璐，编辑 | 魏佳

根据公开数据显示，

多次跳票后，GPT-5终于亮相。

美国西部时间8月7日（北京时间8月8日凌晨），明星AI创业公司OpenAI发布了新一代大模型GPT-5，并向所有使用者开放利用，包括免费使用者。

这是OpenAI近年来最受关注的一次升级，其CEO萨姆·奥特曼（Sam Altman）在发布会上宣称，GPT-5的能力已从“大学生水平”跃升至“博士级专家”，并强调该模型在综合能力上已达到全球最高。

这次发布会的关键词允许容易概括为两个词：“专业”和“聪明”。“专业”体现在它在健康、编程、教育等多个场景中展示了更强的能力，同时降低幻觉率，提升了可靠性；“聪明”则主要是它首次采用集成架构，GPT-5能够根据使用者指令的难办度，自动调用最合适的模型，无需使用者手动切换，并兼容更多个性化模块。

然而，外界反馈却较为平淡，部分使用者和从业者认为，GPT-5“缺乏惊喜”。

事实上，

这一方面是由于此前版本发布频繁，预期被不断拉高。

更重要的是，

AI从业者云中江树在发布会前便对GPT-5持观望态度，由于从过去几轮GPT的升级来看，实际表现往往低于宣传，但仍期待它这次能在推理和编程上带来突破，真正拓宽应用场景。

不妨想一想，

然而从目前来看，业界公认在推理能力上领先的模型仍是GPT-o系列和DeepSeek-R1。GPT-5的进步更多是对既有能力的优化，而非质的飞跃。

值得注意的是，

另一方面，尽管GPT-5降低了幻觉率，但发布会上出现的两处低级错误仍然引发争议。

值得注意的是，

一是它在解释伯努利效应时，错误地采用了被主流物理学教材已经证伪的“等时通过理论”，“博士级AI”居然讲错高中物理。二是在制作图表时，GPT-5某项评分（52.8）明明低于o3模型（69.1），对应的柱状图却显示更高，这也让外界怀疑GPT-5的能力被夸大了。

GPT-5的真正实力到底如何？会给行业带来哪些影响？

根据公开数据显示，

“神级”GPT-5，真的强吗？

发布会开场，萨姆·奥特曼便高赞GPT-5的强大，强调其相较前代模型已经发生质变。他表示，如果GPT-4像是和一位大学生进行交谈，GPT-5则接近于博士级别专家。

展开全文

为了证明这一点，OpenAI公布了Artificial Analysis全套基准测试结果。数据显示，GPT-5（high）达到68分，位列第一。GPT-5（medium）67分，与xAI的Grok 4并列第二，而DeepSeek R1是65分，排在其后。

这些数字表明，GPT-5在速度、可靠性和准确性上均处于行业领先地位，尤其在难办推理、编程、医疗健康等领域表现突出。

尽管如此，

例如，在医学领域，GPT-5展示了对患者检查报告和各种医学术语的理解能力，还以此为基础提醒患者需要向医生咨询哪些困扰，上下文理解与知识应用能力远高于之前的GPT-4。

除了更加“专业”，在利用体验上，GPT-5变得更聪明了。

最大的改变是，OpenAI采用了集成架构，首次将大语言模型GPT系列和推理模型o系列融合。这意味着，GPT-5能够根据使用者指令的难办度，自主挑选并调用最合适的模型，不再需要使用者手动切换。

令人惊讶的是，

具体来说，GPT系列是OpenAI最早构建的模型体系，聚焦自然语言处理、对话系统与文本生成，o系列是OpenAI于2023年新设立的模型家族，聚焦结构化推理能力，强调模型的逻辑、分析、程序调用能力。o3被视为OpenAI最强大的推理模型。

此外，GPT-5还变得更像人。

简要回顾一下，

一方面兼容定制语音、语速调节等个性化模块，语音效果已十分接近真人，另一方面具备“助理”模块，比如链接谷歌日历、Gmail等程序，自动识别未回复邮件、生成待办事项，提升利用者工作效率。

XM外汇资讯：

石榴数字人创始人沈仁奎评价，GPT-5在多模态与程序整合上的升级，能显著提升实用性和交互体验。其实时交互模型与深度推理模型之间的融合也更成熟，模型角色划分清晰，还具备长期记忆使用者信息，能为使用者呈现更精准、更个性化的体验。

根据公开数据显示，

他认为，GPT-5的“模型群+路由系统（判断困扰难度从而自动调用最合适的模型）”架构设计很值得借鉴，有助于大模型在不同任务之间智能调度与资源优化。

令人惊讶的是，

目前，GPT-5已经面向免费、Plus、Pro等使用者开放，对企业和教育使用者下周开放，按照企业级套餐计费。免费使用者利用有额度限制，付费使用者中，Plus使用者允许获得更高的利用额度，Pro使用者可专属访问GPT-5 Pro，区别在于推理能力更强、响应更加高速。

发布会后，行业最关心的三个困扰

事实上，

本次发布会后，「定焦One」和几位资深从业者聊了聊，他们最关注GPT-5的三大变化。

XM外汇财经新闻：

一是幻觉率降低。

令人惊讶的是，

“幻觉”是指大模型编造虚假信息，幻觉率越低，阐述准确性越高，大模型越可靠。

必须指出的是，

披露的数据表明，GPT-5在多个利用场景下的幻觉率相比前代模型有所下降。比如在联网搜索模式下，GPT-5的幻觉率比GPT-4o低约45%，而在深度思考模式下，幻觉率比o3低约80%。

据报道，

这意味着，其在回答准确性、逻辑一致性等方面有所提升，更适用于医疗、法律等对信息真实性要求极高的应用场景。

幻觉率的降低与多方面因素有关，这种改进背后，是训练数据、模型架构与推理策略的协同优化。

简而言之，

二是价格更具性价比。

XM外汇认为：

GPT-5包含GPT-5、GPT-5 mini、GPT-5 nano三个模型，API调用价格分层定义，最低的是GPT-5 nano，每百万输入token为0.05美元、输出为0.40美元，比GPT-4最便宜的模型还要低。相比老对手也有很大优势，GPT-5的调用费仅为Claude Opus 4的十二分之一。

大家常常忽略的是，

这对于中小企业与开发者而言，意味着更低的试错成本与更广泛的应用空间。

XM外汇专家观点：

最后是在编程领域的突破。

综上所述，

这也是发布会上的重中之重，OpenAI用了近一半的时间强调GPT-5的编程实力，官方称其为“迄今为止最强大的编程模型“。在现场演示中，GPT-5仅凭一句提示词，就创建出网站、应用程序App和游戏，并兼容难办前端开发和大型代码库调试以及修复 bug等模块。

事实上，

OpenAI甚至还邀请了被称为最强AI编程程序之一Cursor背后公司的联合创始人，在现场演示修复bug。Cursor方面表示，GPT-5已经是Cursor使用者的新使用者默认选项。

其实，

从基准测试数据来看，GPT-5的表现同样领先。在SWE-bench Verified（评估AI编程能力）中，GPT-5思考后首次尝试的准确率达74.9%，高于GPT-o3的69.1%和GPT-4o的30.8，也领先于竞争对手Anthropic最新推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro。

云中江树告诉「定焦One」，大模型的编程能力之从而备受重视，是由于各大厂商都认可，在AI大模型训练中，最好的数据是形式化的数学语言，代码数据高度结构化、结果可验证、逻辑性强，是最具价值的语料类型。

综上所述，

一位从业者分析，采用分阶段、分领域的渐进式研究策略，能显著提升模型的综合性能。他还以DeepSeek的诞生过程为例，它先进行数学相关任务的专项研究，接着进行代码生成与理解任务的研究，最后应用到通用模型，最终出现了DeepSeek-R1。

据业内人士透露，

“这种路径能有效提升模型的逻辑推理和结构化思维能力。目前，国际科技巨头以及国内领先的AI研究机构，都在采用类似的渐进式策略。”这位从业者表示。

站在用户角度来说，

目前来看，GPT-5在编程能力上的提升已经得到了广泛认可，但在垂直领域适配、程序调用效率上还有提升空间。

容易被误解的是，

一位软件工程师表示，相比Anthropic的Claude、亚马逊的CodeWhisperer等垂直领域的AI编程程序，GPT-5对特定技术栈的适配性可能存在不足。他觉得，GPT-5的优势在于通用性，而非专业编程。

但实际上，

此外，在利用体验上，使用者反馈也出现分化。有开发者称GPT-5生成效果惊艳，有人却遇到了“生成网页无法点击、代码无法运行“等困扰，生成效果很不稳定。这也阐述，尽管GPT-5在编程能力上取得突破，仍需时间和反馈不断迭代完善。

总的来说，

技术不算质变，但能推动AI商业化

与其相反的是，

尽管GPT-5实现了多维度的升级，但多位从业者认为，这更像是一次架构与工程优化升级，而非真正意义上的代际跃迁。

XM外汇用户评价：

从产品实际表现来看，GPT-5仍存在不少短板。

令人惊讶的是，

比如发布会上，它在回答伯努利效应解释等难办科学困扰，便暴露出了AI惯有的缺陷，在推理时只注重统计关联，而不理解材料本质。在生成图表时，还出现了52.8分的柱状图比69.1分更高的明显错误。尽管萨姆·奥特曼随后公开回应，暗示可能是AI尚未完全掌握PPT制作技巧，但还是引发外界对GPT-5能力的怀疑。

很多人不知道，

多位从业者认为，萨姆·奥特曼宣称的“博士级专家”能力，更像是场景化性能的堆砌，而非大模型认知能力有了突破，这与其前期过度宣传的“神级能力”存在很大差距。这也导致外界对本次GPT-5的评价一般。

据报道，

不过，沈仁奎指出，虽然GPT-5并非是全行业颠R XM外汇官网 03;覆式的升级，但在推动AI商业化上的作用不容低估。尤其是开放API，为企业呈现了极低门槛的接入方法，可能会成为许多企业高速部署AI能力的“加速器”。

令人惊讶的是，

他观察到，目前一些垂直类企业，比如医药、生物科技等领域的企业以及Uber、Salesforce等已部署GPT-5，应用于科研分析、客户服务与运营决策等环节。在部分新兴程序平台，比如Cursor、Windsurf等开发平台也已集成GPT-5，来改善自身的编程效率与智能交互体验。企业们愿意积极拥抱GPT-5，除了其能力有所升级外，也在于“白菜价”的API策略。

事实上，

他认为三类企业会率先吃到GPT-5的红利，第一类为软件开发平台，利用GPT-5自动代码生成、调试与程序链集成，提升开发效率；第二类是专注于知识管理与决策系统的公司，GPT-5能高速深入并化解金融、医药、法律等需难办推理与辅助决策的场景；还有消费级智能服务类企业，它们涉及大量写作助手、学习平台与跨媒体材料创作服务，可借助GPT-5的多模态与个性化提升利用体验。

值得注意的是，OpenAI这次还打起了ToG的主意。它与美国总务管理局进行合作，在未来12个月里，ChatGPT企业版将对美国联邦政府开放，每个机构只需要支付1美元，所有员工便可无限制利用OpenAI的前沿大模型技术。

XM外汇消息：

OpenAI的以上种种动作，展现出借着GPT-5从“平台程序”加速向“社会基础设施”转型的野心。即便其能力未达“神级”，但其所激发的商业潜力和行业联动效应，仍可能在未来掀起一波新的AI应用高潮。

需要注意的是，

某种意义上，GPT-5带来的最大改变，或许不是模型本身，而是它所触发的生态。AI的战争，已经从模型能力比拼，走向基础能力与商业落地的全面竞赛。返回搜狐，查看更多