多名核心研究员被挖后，奥特曼放出超级智能体ChatGPT Agent，AGI还有多远？

发表评论

A+

所属分类：科技

摘要

现在，有了ChatGPT Agent，用户只需在 ChatGPT 界面中里的工具中选择“智能体模式”（Agent mode），就可以让电脑自动执行诸如深度财务研究、在线表格填写、幻灯片制作等任务，真正实现将…” />

XM外汇资讯：

出品｜搜狐科技

据报道，

作者｜常博硕

很多人不知道，

编辑｜杨锦

Agent的风越刮越大了。

综上所述，

就在刚刚，OpenAI 正式推出了自己的智能体，名字轻松直接，就叫ChatGPT Agent，成功将 ChatGPT 从单纯的文本对话助手升级为能够自主思考和行动的智能代理系统。

1+1大于2

现在，有了ChatGPT Agent，客户只需在 ChatGPT 页面中里的系统中勾选“智能体模式”（Agent mode），就允许让电脑自动执行诸如深度财务研究、在线表格填写、幻灯片制作等任务，真正实现将想法或疑问“转化为实际行动”。

可能你也遇到过，

其实，今年1月OpenAI发布的Operator就允许称得上是一个Agent了，它允许对浏览器上的信息进行视觉识别+操控，缺点是在网页上阅读超长帖子时会遇到困难，耗时过长。两周以后，Deep Research诞生，这个特性允许让客户进行深入的互联网研究并输出高质量的研究报告，但是Deep Research不擅长与交互式和高度可视化的网页进行互动。

令人惊讶的是，

但是，如果把这两个特性同时放进一个虚拟机里，那就会变成一个允许调同时调度文本浏览器、图形页面浏览器和一个代码终端的模型。而这，就是ChatGPT Agent！

与其相反的是，

人类对于Agent的终极幻想应该就是《钢铁侠》中的贾维斯形象，一个能够无缝处理多变的在线任务的全能秘书。ChatGPT Agent目前已经朝着这个方向大步跃进了。从跨公共网站、上传文件和连接的第三方来源（如电子邮件和文档库）进行深入研究，到执行填写表格和编辑电子表格等完成，一应俱全。

为了适配多变任务的执行，OpenAI 为智能体配备了一套丰富的内置系统：包括图形化的网页浏览器、基于文本的网页检索系统、命令行终端，以及对外部 API 的直接访问接口。此外，ChatGPT Agent还允许利用连接器稳妥地访问诸如 Gmail、GitHub 等应用，从而在理解疑问时获取更完整的上下文。

大家常常忽略的是，

展开全文

发布会上，奥特曼的团队通过几个案例向大众展示了ChatGPT Agent的强大特性。比如，您允许用它设计并制作出心仪的公司吉祥物漫画风贴纸，然后再订购500张并送到某个地址。再比如，您允许用它生成一份详细的旅游规划、婚礼策划等等，您只需要输入指令，ChatGPT Agent就会自主打开浏览器，在虚拟计算环境中着手执行任务，只需要几分钟就会生成一份详细的规划，甚至还能直接做成PPT。

“查看日历并基于最新动态总结即将到来的会议”“计划并购买四人份早餐的食材清单”“分析三家竞争对手并制作幻灯片报告”等等这些疑问都不在话下。只要一句话，ChatGPT Agent就会像您的私人秘书一样为您计划好。

令人惊讶的是，

此外，ChatGPT Agent还允许利用连接器稳妥地访问诸如 Gmail、GitHub 等应用，从而在理解疑问时获取更完整的上下文。

概括一下，

ChatGPT Agent还针对迭代式、协作式工作流进行了优化，与传统模型相比具有更强的交互性和灵活性。在执行任务时，客户始终允许随时中断或接管完成。例如，客户允许在它执行任务的过程中进行澄清、重新下达指令或者完全停止任务，系统会在获得新信息后从中断点继续执行，而不会丢失先前的进度。

概括一下，

系统也会主动向客户询问更多细节，确保执行结果与客户目标保持一致。如果任务耗时过长或陷入瓶颈，客户允许随时暂停任务、要求给予进度摘要，甚至完全终止任务然后仅收取部分结果。

概括一下，

也就是说，整个交互过程中，客户始终保持对任务的控制权。

综上所述，

多项基准破纪录，刷新SOTA

不妨想一想，

ChatGPT Agent在多种行业基准测试中表现出色。例如，在“Humanity’s Last Exam”（人类最终测试）这一专家级多学科评估中，该评估通过专家级疑问衡量 AI 在广泛学科领域的表现，ChatGPT Agent所采用的模型取得了以41.6%的得分，刷新了pass@1最高纪录。当研究团队采用并行策略后，即同时运行最多8次并选取自信度最高结果，HLE得分直接刷到了44.4%。

综上所述，

在最难的数学基准测试FrontierMath中，ChatGPT agent借助代码终端等系统，实现了27.4%准确率，大幅超越o3和o4-mini。在电子表格编辑的专业测（SpreadsheetBench）中，ChatGPT 智能体的表现甚至超过了微软 Excel Copilot 借助原生插件的水平，正确率高达45.5%。

在模拟真实数据科学工作流程的 DSBench 测试中，智能体也显著优于人类专家平均水平。

换个角度来看，

除此之外，模型还展现了其银行投资分析师的能力，比如为《财富》500 强企业构建符合规范的财务报表模型，或者为私有化交易构建杠杆收购模型。ChatGPT 智能体所采用的模型在该测试中显著优于Deep Research和o3模型。

请记住，

这些结果表明，ChatGPT Agent 的特性不仅仅停留在问答或轻松检索上，而能够处理广泛的专业知识任务。

ChatGPT Agent特性目前向 Pro、Plus 及团队版客户开放。Pro客户每月可用约400次，Plus/团队版客户则略少，每月有40次运用权限，企业版和教育版订阅客户也会在之后陆续获得访问权限。

换言之，从 ChatGPT-4 到 ChatGPT Agent，不只是模型理解力的提升，更是执行力的引入,AI已经逐步从被动回应转变为主动代劳。ChatGPT Agent的推出正值国内外各大AI厂商集体布局智能体的时代，许多公司也在推出类似产品或研发相应技术，各有侧重。

OpenAI的ChatGPT Agent、Google的Gemini、Anthropic的Claude，国内的秘塔、Kimi等等都已经实现模型自动调用浏览器、终端、API 等系统的能力。未来，模̴ XM外汇代理 3;型不会再只是文本生成器，而是具备系统链指挥能力的全方位助手。

据相关资料显示，

目前大部分Agent主要基于大型通用语言模型加系统调用，在一体化智能体架构中，模型自行决定运用哪种系统和行动路径。还有像Anthropic 和Manus 等，采取多代理并行模式，多个模型实例协同工作，Kimi则持续走强化学习路线，让单一模型通过自我探索来完成多步任务。

各大公司都在尝试将AI从纯信息问答推向行动执行，华为、阿里云、蚂蚁等大厂今年也纷纷宣布进军Agent。尽管如此，通用智能体的路还有很长，首先是主流国内智能体多处于内测或闭环商业模式，缺乏完善的插件市场、第三方 SDK 和标准 API一定程度上制约了多样化场景下的集成与创新。

XM外汇资讯：