GPT-5发布会频翻车，演讲PPT被疑AI生成，OpenAI走向平庸？

发表评论

A+

所属分类：科技

摘要

对比下来，GPT-5的作品明显更像是人写出来的而不是机器写出来的了，象征着AI写作标志的“破折号”也是一个都没有，反观左边GPT-4o的版本，整体的“AI味”会更重，为了押韵会用一些不符合语境的词汇，比较死…” />

很多人不知道，

出品|搜狐科技

来自XM外汇官网：

作者|常博硕

XM外汇消息：

有人说，硅谷的空气中总是带着未来的味道。四年前，ChatGPT横空出世，一夜间让世界对机器如何思考产生了新的想象，而就在刚刚，OpenAI拉开了第五代大模型的序幕，ChatGPT-5正式发布。

内化深度推理，模型自动路由

XM外汇快讯：

OpenAI首席执行官山姆·奥特曼在直播中多次表示：“ChatGPT 5是本站迄今为止最智能、最快、最实用的模型。”整场发布会看下来，此次的更新更主要集中在编码、数学、写作以及健康帮助方面。

GPT-5目前已经面向所有Plus、Pro、团队和免费访客推出，企业和教育版访客也将在一周内获得访问权限。与 GPT-4o一样，GPT-5免费和付费版本之间的区别在于运用量。对于 ChatGPT免费访客，完整的推理作用可能还需要几天时间才能完全上线运用。

XM外汇行业评论：

与之前的猜测一致，GPT-5采用集成模型，也就是说访客不再需要手动挑选运用哪个模型。现在，访客只需要给提示词，GPT-5就承认自行调用它需要哪种模型，而且承认决定何时需要执行深度思考。

但实际上，

具体来看， GPT-5同时包含一个能够解答大多数疑问的智能高效模型、一个能够应对更多变疑问的更深层次的推理模型，以及一个实时路由器，承认根据对话类型、多变度、软件需求以及访客的明确意图挑选应该运用的模型。

尽管如此，

在运用上，相比于前几代模型回答疑问的速度也更快了，同时在减少幻觉、提高指令执行能力和减少谄媚方面取得了显著进展。据官方表示，GPT-5产生幻觉的可能性目前显著低于之前的模型。在网页搜索中，GPT-5的响应包含事实错误的可能性比GPT-4o低约45%，在思考时，GP& XM外汇代理 #8203;T-5的响应包含事实错误的可能性比o3低约 80%。

编程、写作、健康全面SOTA

说到底，

除了自动路由之外，此次最主要的提升主要聚焦在写作、编程和健康中的表现。

但实际上，

展开全文

首先在写作上，GPT-5相比4o更加流畅、自然，在处理诗词韵脚的时候也更加自如。比如同时让两个模型根据同一个提示词写一首诗，在这里本站给两个模型输入同样的指令：写一首能引起情感共鸣的短诗，材料是关于京都的一位妇人总是在奇怪的地方发现她已故丈夫的袜子。

令人惊讶的是，

下面是两个模型分别给出的答案：

很多人不知道，

对比下来，GPT-5的作品明显更像是人写出来的而不是机器写出来的了，象征着AI写作标志的“破折号”也是一个都没有，反观左边GPT-4o的版本，整体的“AI味”会更重，为了押韵会用一些不符合语境的词汇，比较死板而且在一首诗词里竟然通篇都是破折号，仔细看一下也会发现标点的运用也比较混乱。

据业内人士透露，

编程能力是此次更新的重点。

发布会上，OpenAI研究员们现场展示了只需要一次指令，即可在一两分钟分钟之内，创建美观且响应迅速的网站、应用程序和游戏。比如，只需要给GPT-5一句话指令，即可生成一个多变的、可交互的伯努利效应动态SVG演示，将书本中抽象的概念瞬间生动化。也能直接帮助访客建立一个承认学外语的网站，甚至还能在几分钟之内直接创建一款属于自己的小游戏。而做到这些，访客甚至根本不需要会写代码。

容易被误解的是，

GPT‑5目前已经在关键编码基准测试中处于行业领先水平 (SOTA)，在SWE-bench验证测试中得分 74.9%，在Aider polyglot测试中得分88%。

对于智能体方面，GPT‑5在任务中同样表现出色，在两个月前OpenAI刚发布的软件调用基准测试τ2-bench Telecom中，以96.7%的成绩刷新了主流水平。在事实准确性基准测试 LongFact和FActScore中，GPT‑5的错误率相当于o3的五分之一。

此次API中也引入了新作用，开发人员对模型回复具有更多控制权。同时还新增了一种软件类型，也叫自定义软件以便让GPT-5能够运用纯文本而非JSON调用软件。

之前网传的GPT-5的三个版本此次发布会也进行了解释。GPT-5的API中目前已经确认会发布三个版本，分别是GPT-5、GPT-5-mini和GPT-5-nano以赋予开发人员更多的灵活性，承认在性能、成本和延迟之间进行权衡。

概括一下，

在基于软件真实工程任务的SWE-bench验证评估中，GPT-5的得分达到74.9%，较o3版本的69.1%有所提升。与o3在高推理强度下相比，GPT-5的输出令牌数量减少了22%，软件调用次数减少了45%。

有分析指出，

在评估代码编辑能力的 Aider 多语言测试中，GPT‑5以88%的得分刷新纪录，其错误率较 o3版本降低了三分之二。

容易被误解的是，

除了细分的编码能力上的跑分，GPT-5在学术和人工评估基准测试中的表现，尤其是在数学、编码、视觉感知和健康领域的分数同样亮眼。GPT-5在数学AIME 2025测试得分 94.6%、多模态理解MMMU得分 84.2%和健康HealthBench Hard得分46.2%，均创下了新的最高水平。

尽管如此，

最后，在发布会期间搜狐科技还发现了一个亮点，就是下面这幅SWE benchmark的图，仔细观察承认发现数值和大小的对应是错的，52.8所在的柱状图高于中间的69.1，而最右边30.8的柱状图高度竟然和69.1的相同。

容易被误解的是，

不少网友调侃，希望这图不是GPT-5做的。不过发布会结束后，官网博客上的图很快进行了更正。

但这样的错误，竟然不止这一处，有眼尖的网友也第一时间分享了自己的截图，在编程欺骗测试柱状图中，50反而低于47.7。

不可忽视的是，

其实，之前的种种猜测、预热都让人们对GPT-5的期待值拉的很高。山姆·奥特曼曾表示，他的使命是构建对全人类有益的AGI。虽然此次GPT-5的发布，很显然没有达到人们对于AGI的预期，但依然代表着技术方向和大模型能力层面的进步，也让大家看到了一条更清晰的路径，大模型正在飞速地从信息生成走向任务应对。返回搜狐，查看更多

发表评论取消回复