这你可能没想到，ChatGPT Agent口碑两极化，Manus隔空对战：赢了

发表评论

A+

所属分类：科技

摘要

ChatGPTAgent发布后，竞品Manus第一时间接招，放出10个实测案例，试图通过财务建模、生活规划、行程安排、消费购物、航班筛选等不同场景任务，证明ChatGPT Agent在任务闭环和可视化交付…” />

站在用户角度来说，

智东西AI前瞻（公众号：zhidxcomAI）

XM外汇报导：

作者 | 江宇

编辑 | 漠影

事实上，

智东西AI前瞻7月18日报道，今日凌晨，OpenAI正式推出了ChatGPT Agent，一个整合了网页交互、深度检索和代码能力的全新“AI助手形态”。

XM外汇财经新闻：

从产品逻辑上看，网络交互程序Operator和深度信息检索程序DeepResearch不再分家，ChatGPT内部出现了一个能够“查找-思考-执行”一体化的Agent，访客能直接让AI跨网页、代码、个人数据源完成完整任务。

换个角度来看，

相较于OpenAI接连被挖角引发的舆论热度，ChatGPT Agent的发布似没达到“革命性Agent”的期许，略显反应平淡。社区访客体验后褒贬不一，有人认为“初见AGI的雏形”，但也有人指出PPT排版简陋、多变逻辑易中断和幻觉等难点。

需 XM外汇官网要注意的是，

ChatGPT Agent发布后，竞品Manus第一时间接招，放出10个实测案例，试图通过财务建模、生活规划、行程安排、消费购物、航班筛选等不同场景任务，证明ChatGPT Agent在任务闭环和可视化交付上并不占优。

说出来你可能不信，

展开全文

▲（图源：Manus X平台）

回过头来看，ChatGPT Agent在网页浏览、执行任务等多个测评中实现了SOTA，在“人类的最后考试”（Humanity’s Last Exam）测试中取得了41.6的高分。这一成绩证明了其能力，也同时需要进一步在真实场景中验证。

ChatGPT Agent将首先向Pro、Plus和Team访客推出，Pro访客每月可获得400次查询，其他付费访客每月40次。面向企业和教育访客的版本，预计将在本月底前上线。

尽管如此，

目前，ChatGPT Pro版的订阅价格为每月200美元，包含Agent和终端作用。相比之下，xAI的Grok 4最新的Agent产品定价高达每月300美元，两者价格相差1.5倍。

尤其值得一提的是，

一、一次“作用拼图”的交付，ChatGPT Agent有哪些升级？

XM外汇财经新闻：

ChatGPT Agent的定位具备轻松理解为“把Operator和DeepResearch合并”，并补上了一个“终端”和“图像生成API”的程序栈。

根据公开数据显示，

1、文本浏览器（DeepResearch作用）负责批量搜索网页、阅读长文本；

有分析指出，

2、可视化浏览器（Operator作用）负责网页点击、拖拽和表单填写；

3、终端具备跑Python脚本、生成和分析文件（Excel表格、PPT幻灯片）和调用API，甚至接入Google Drive、GitHub等外部数据；

XM外汇资讯：

4、图像生成API补足基础的可视化素材生成，具备为报告或幻灯片创建视觉素材。

令人惊讶的是，

这套“程序箱”搭载在一个虚拟机环境下，由经过强化学习训练的模型调度，能实现从自动检索、分析、生成文档，到最终下单、预约的完整闭环。

不可忽视的是，

在发布演示中，OpenAI选取了一个贴近生活的案例：用Agent帮访客策划一场婚礼行程。

XM外汇专家观点：

▲婚礼策划实测（图源：OpenAI）

这你可能没想到，

ChatGPT团队呈现婚礼网站链接，提出“帮忙介绍服装、选酒店、挑礼物”三个需求。Agent先自动抓取婚礼时间、地点和着装要求，再查询天气并介绍适合的服装，随后跳转到Booking.com查找酒店选项，最后搜索礼物介绍。最终，Agent生成一份“婚礼准备报告”，按服装、酒店、礼物分类整理，附带来源链接和截图，完整交付给访客。

▲ChatGPT Agent所生成的婚礼策划（图源：OpenAI）

其实，

二、Manus隔空叫板：十大对比，作用对齐，体验分化

ChatGPT Agent发布后，作为竞品的Manus第一时间在X平台发布多轮实测对比，主动“迎战”。

从某种意义上讲，

从展示效果来看，Manus通过可视化呈现、跨平台处理和交付形式展示了自身优势，试图证明其在任务闭环和最终输出上的完整度优于ChatGPT Agent；相比之下，ChatGPT Agent更多聚焦于基础信息检索和文本型交付，作用覆盖相近，但在交互体验上呈现出不同方向。

总的来说，

具体案例呈现：

据报道，

1、案例1：新加坡公司选址与政府资助

XM外汇消息：

Manus输出完整调研资料和资助方案PPT，含生态概览、政策详情与图片；ChatGPT Agent只生成基础幻灯片，缺少要点总结与可视化呈现。

换个角度来看，

▲（图源：Manus）

案例2：高收入FIRE模型

综上所述，

Manus完成包含城市生活成本、税务规划的完整PPT，含关键图表和视觉元素；ChatGPT Agent只列出基础生活成本清单，税务信息方面并不完善，且无投资策略或可视化分析。

据相关资料显示，

▲（图源：Manus）

与其相反的是，

案例3：三日网球行程制定

事实上，

Manus生成含每日日程、预算及订票链接的可视化行程卡片；ChatGPT Agent输出纯文字行程，排版单调无整合。

事实上，

▲（图源：Manus）

案例4：旧金山ACFR财务表格

Manus整理2020-2024年财务数据并生成可视化预算趋势PPT；ChatGPT Agent只生成无视觉呈现的财务表格。

▲（图源：Manus）

简要回顾一下，

案例5：电动车行业研究

XM外汇消息：

Manus制作5页完整PPT，包含行业增速图表、旗帜等定制视觉元素；ChatGPT Agent停留在信息收集，未完成PPT交付。

据业内人士透露，

▲（图源：Manus）

案例6：筛选500美元以下风衣

事实上，

Manus整理符合条件的商品清单并生成对比文档；ChatGPT Agent只停留在电商页面截图，无完整输出。

XM外汇快讯：

▲（图源：Manus）

令人惊讶的是，

案例7：英伟达估值建模（DCF模型）

XM外汇消息：

Manus完成全流程，包括历史财务数据抓取、WACC估算、现金流预测、敏感性分析和完整图表输出；ChatGPT Agent仅停留在搜索公开年报信息，未完成建模和分析。

▲（图源：Manus）

据报道，

案例8：季度财报拆分更新

可能你也遇到过，

Manus完成季度表格更新和PPT生成，ChatGPT Agent只完成基础表格更新，无季度拆分和PPT。

大家常常忽略的是，

▲（图源：Manus）

案例9：预订高评分寿司餐厅

不妨想一想，

Manus全流程完成订座并返回确认页面，ChatGPT Agent只完成基础餐厅信息检索，无预订动作。

XM外汇快讯：

▲餐厅预定成功操作界面（上）和Manus实操操作界面（下）（图源：Manus）

值得注意的是，

案例10：查询机票并筛选优选航班

令人惊讶的是，

Manus完成可视化航班票价对比卡片，ChatGPT Agent仅展示网页搜索信息，无可视化总结和筛选逻辑。

XM外汇资讯：

▲（图源：Manus）

换个角度来看，

作为“参赛选手”，Manus的展示更侧重自身产品优势，ChatGPT Agent实际效果如何，还需持续观察更多访客的真实体验反馈。

三、体验有惊喜也有槽点：效率在线，多变检索还需人类兜底

其实，

社区实测也迅速给出了“褒贬对半开”的反馈。

X平台访客用Agent在20分钟内完成了FIRE计划，称相同服务在人类顾问处花费可能高达5000美元。

XM外汇财经新闻：

ChatGPT Agent首先查找了本地税收政策（温哥华），分析了访客的月均开支，测算出在30岁退休所需的储蓄金额，接着生成了投资组合建议，并梳理出访客此前未接触过的税务优化策略，最后构建了多个退休方案的对比情景，生成了一份完整的可下载PPT文件。

反过来看，

▲（图源：X平台）

他还补充道，Agent在生成电子表格和PPT上的能力最让人印象深刻，但整体结果与他用Manus、Genspark等其他Agent程序的体验“差异不大”。在他看来，对没用过这些程序的大多数人而言，ChatGPT Agent的能力“依然足够震撼”。

可能你也遇到过，

▲（图源：X平台）

请记住，

不过，ChatGPT Agent在社区的访客反馈中也暴露出不少实际体验上的短板。不少访客吐槽，在网页交互过程中经常出现卡顿或404错误，生成的PPT排版简陋、审美效果较差，遇到稍微多变的逻辑需求时，任务流程也往往需要频繁中断和人工修正。

据报道，

沃顿商学院教授、AI研究者Ethan Mollick也分享了类似感受。他在X平台称，自己用ChatGPT Agent分析了Kaggle上的数据集，虽然Agent能够顺利完成分析流程并生成PPT和Excel文件，但初步结果中存在明显的数据异常。只有在他呈现反馈后，Agent才成功识别出难点并修正结果。

▲（图源：X平台）

说出来你可能不信，

Agent在执行流程上已经具备高效率，但在数据判断和逻辑把控上仍然离不开人类监督。

尽管如此，

从跑分和社区反馈来看，ChatGPT Agent擅长处理指令明确、路径清晰的任务，比如生成婚礼准备清单或根据财务数据制作PPT，在这类标准化流程中，Agent能够高效执行，显著节省人工处理。

但遇到模糊指令或需要开放式判断的任务，比如整理行业隐性趋势或挖掘未被报道的新闻线索时，Agent往往难以给出有效结果，容易陷入“找不到”或“请明确需求”的反复循环。

四、跑分成绩亮眼：擅长流程跑通，难在开放推理

简而言之，

在数据测评上，Agent模式在人文学科推理、金融分析、网页交互和电子表格四大维度上对o3有不同程度领先，最高实现翻倍提升。

总的来说，

ChatGPT Agent在“人类的最后考试”（Humanity’s Last Exam）评估中取得41.6%的最高分，相比o3无程序模式（20.3%）实现翻倍提升，在跨学科专家级难点上展现了推理与程序调用能力。

▲Humanity’s Last Exam（来源：OpenAI）