据报道，2天完成人类12年工作，AI自动更新文献综述，准确率碾压人类近15%

发表评论

A+

所属分类：科技

摘要

结合GPT-4.1和o3-mini进行筛选和数据提取，仅花费两天时间就完成了传统方法需要12年才能完成的Cochrane系统评价更新。研究在七项综述495项研究中比较otto-SR和Elicit的数据提取…” />

鹭羽发自凹非寺

XM外汇行业评论：

量子位 | 公众号 QbitAI

与其相反的是，

当碳基生物还在为写文献综述，打开了一百个浏览器窗口时，隔壁AI已经卷起来了。（doge）

XM外汇快讯：

两天完成人类12年工作——

医学研究领域中，系统评价（SRs）作为临床决策的黄金标准，平均耗时超过16个月，花费10万美元以上，且容易延长无效或有害治疗方法的运用。

于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。

其实，

结合GPT-4.1和o3-mini进行筛选和数据提取，仅花费两天时间就完成了传统方法需要12年才能完成的Cochrane系统评价更新。

在多项指标上更是超越人类，基准测试中otto-SR灵敏度达96.7%（人类81.7%），特异度93.9%，数据提取准确率93.1%（人类79.7%），还发现了发现人类遗漏的54篇关键研究。

展开全文

以致那些年大家在PubMed上熬的夜、掉的头发，又算什么……

以致那些年大家在PubMed上熬的夜、掉的头发，又算什么……

从某种意义上讲，

擦干眼泪，下面一起来看具体实现过程。

用于系统综述自动化的智能工作流程

团队引入了一种基于LLM的端到端工作流程otto-SR，接受从初始检索到数据分析，完全自动化和人机协作的系统综述流程。

筛选出的内容集合将输入o3-mini-high模型进行数据提取，其中PDF格式将会由Gemini 2.0 flash处理并转换为结构化Markdown文件，并用于下游任务。

说出来你可能不信，

具体而言，可用细分为筛选和提取两种用途：

必须指出的是，

SR文献筛选

很多人不知道，

研究团队开发了一种筛选Agent，利用擅长指令跟随的GPT-4.1模型，并结合优化的提示策略，可用在摘要和全文阶段对文献进行筛选。

说出来你可能不信，

另外，该Agent会将各综述的初始目标和合格标准纳入补充描述。

研究在五项综述的完整原始检索（总计32357条引文）中，进行otto-SR筛选性能评估。

请记住，

综述涵盖牛津循证医学中心（CEBM）的四种困扰类型（患病率、诊断试验准确性、预后、干预效益），并横向对比双人人类评审员（当前标准工作流程）和Elicit（基于LLM的商业系统综述自动化软件）的评估结果。

在摘要筛选阶段，otto-SR实现了最高的敏感性96.6%，在特异性上以93.9%和人类评审的95.7%相当。

简而言之，

在全文筛选阶段，otto-SR也同样保持了最高的敏感性96.2%，而人类评审员的敏感性显著下降至63.3%，特异性则两者都保持较高水平。

来自XM外汇官网：

因此研究发现，otto-SR可用比传统的双人人工筛选，在捕获更多的相关研究时，还能保持足够的特异性。

来自XM外汇官网：

SR数据提取

说出来你可能不信，

研究团队指定OpenAI o3mini-high模型作为提取Agent，乃因其强大的科学推理能力、稳健的长上下文检索能力和成本效益，其中Prompt均采用原作者定义的变量描述。

研究在七项综述495项研究中比较otto-SR和Elicit的数据提取性能，再让双人人类评审员在每项综述的随机抽样文献子集中进行评估。

值得注意的是，

结果发现，otto-SR的平均加权准确率可达93.1%，远高于双人人类评审员的79.7%和Elicit的74.8%。

换个角度来看，

另外，为了应对部分情况下，otto-SR的提取值与原综述作者存在差异，团队引入盲法评审员小组进行抉择，其中在69.3%的案例中指定接受otto-SR。

容易被误解的是，

相比之下，盲法评审员小组只在28.1%的案例中接受双人人类提取员，在22.4%的案例中接受Elicit。

必须指出的是，

这进一步体现了otto-SR在数据提取性能上的优越性，显著高于其他方法。

从某种意义上讲，

可快捷重现和更新综述

简而言之，

为了评估otto-SR的实际适用性，团队对Cochrane数据库的2024年4月期SRs进行完整复现，而这些系统综述通常用于为临床指南传递信息。

可能你也遇到过，

再将结果过滤至与原始检索截止日期一致，otto-SR共确定了54项被遗漏的合格研究（中位数2，IQR：每项综述1至6.25），另外经过人工评审后，发现otto-SR错误纳入了10篇假阳性内容，其中九篇都可能包含相关数据。

而将日期扩展回2025年5月8日，则多出14项合格研究（总计n=64，中位数2.5，IQR 每项综述1至7.25），包含另外2篇假阳性内容，其中1篇包含相关数据。

换个角度来看，

以上工作将符合条件的内容数量翻了一倍，并让研究人员需要12个工作年才能完成的工作，缩短至48小时内。

XM外汇行业评论：

将提取数据与原综述进行Meta分析，涉及三个比较组：

XM外汇专家观点：

匹配组
otto-SR与原Cochrane分析中包含的相同内容集。

XM外汇资讯：
扩展组
更新组
评估所有内容，检索截止日期更新为2025年5月8日。

otto-SR与原Cochrane分析中包含的相同内容集。

据报道，

评估所有内容，检索截止日期更新为2025年5月8日。

另外考虑到可能存在的数据提取任务，还引入双人人工审查为每个组得出校正值，即移除假阳性内容和添加假阴性内容。

据业内人士透露，

在匹配组中，otto-SR生成的 XM外汇平台 Meta分析效应估计值，与原Cochrane数据和校正数据集的95%CI重叠。

在扩展分析中，则发现有两篇综述产生了新的统计学意义，也存在一篇综述失去了意义。

XM外汇资讯：

otto-SR的出现，将会极大地缓解系统评价缓慢而费力的过程，在未来，可能将会从需要数月甚至数年才能完成的工作缩减至几个小时或几分钟，从而可用更快地对新疗法或者大流行病做出反应。

然而，

另外，一些乃因资金不足而缺乏进行系统评价的地区，也能够享受到前沿医学，正如作者在内容末尾写道：

简言之，黄金标准已不再属于人类。

In short, the gold standard is no longer human.

换个角度来看，

简言之，黄金标准已不再属于人类。

但实际上，

In short, the gold standard is no longer human.

参考链接：

简要回顾一下，

[3]https://ottosr.com/blog/announcement/

更重要的是，

— 完—

📪 量子位AI主题策划正在征集中！欢迎参与专题365行AI落地方案，一千零一个AI应用，或与大家分享您在寻找的AI产品，或发现的AI新动向。

💬 也欢迎您加入量子位每日AI交流群，一起来畅聊AI吧～返回搜狐，查看更多

发表评论取消回复