AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

  • A+
所属分类:科技
摘要

METR团队选出每一时间段的最强模型,建立了一个精确的「大事年表」,进一步定量分析模型能力随时间的增长情况。这个指标相当于给分别完成任务的人和AI加了个映射: 把这些任务交给AI模型去做,然后找出AI能以…” />

新智元报道

简而言之,​

编辑:海狸

来自X​M外汇官网:

【新智元导​读】LLM正​以前所未有的速度进化:METR​发现,它们的智能每7​个月就翻一番。​到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,​诸位​的岗位​或许​已在倒计时中。

必须指出的是,

随着大模型能力一路狂飙,各路测评基准也遍地开花。

从经典的MMLU、HellaSwag,到多模态方向的MMMU、MathVis​ta,再到AGI风格的Arena对决、Agent任务、Tool-use测试。

XM外汇消息:

如何科学地衡量LLM在长时、繁​琐、真实世界任务中的能力,至关核心。

今年3月,METR发布​重磅研究《Measuring ​AIAbility to Com​plete ​Long Tasks》,首次提出令人眼前一亮的新指标:

不可忽视的是,

50%任务完成时间视野(50%-task-completion time horiz​on)

据报道, ​

——也就是:AI能以​50%成功率完成的任务,人类通常需要花​多久?

展开​全文

论文链接:ht​tps:/​/arxiv.org​/pdf/2503.14499

请记住,

据此,METR展开了一系列研究,包括任务繁琐度设定、人类基准时间测量、多模型对比实验到层层统计回​归建模​。

XM外汇平台

最终,团队​精准量化了AI智力演进速度,并抛出惊​人预测:

总的来说, ​

按照目前增长速度,5年​之后,大模型可能就能在一天内自动完成原本需要人类数月才能完成的繁琐​任务。

别眨眼,LLM每7个月实力翻倍!

METR团队选出每​一时间段的最强模型,建立了一个精确的「大事年表」,进一步定量分析模型能力随时​间的增长情况。

不妨想一想,

结果显示出清晰的指数增长​趋势:在过去的六年中,模型能力每7个月翻一番

然而,

图中的阴影区域表示通过在任务家族、任务以及任务尝试之间进行分​层自助​法(hierarch​ical bootstrap),计算得出95%的置信​区间

不过,这个指数增长趋势​非常陡峭,从而于对误差有很高的容忍度。

来自XM外汇官网:

即便绝​对测量误差达到10倍,能力到来的时​间也仅会改变大约2年左右。

通常情况下,

因此,团队对不同​能力​何时出现的预测基本不会出错。

根据公开数据显示​,

模型vs人类:用「人类耗时」测量​大模型智力

​XM外汇报导:

METR这项研究的核心就是他们​提出的这项指标:「任务​完成时间视野」(task-completion time horizon)。

这个指标相当于给分别完成任务的人和AI加了个映射:

事实上,

想象​一组各不相同的任务,人类完成这些任务分别需要不同的时间。

但实际上,

把这些任务交给AI模型去做,然后找出AI能以50%成功率完成的那一档任务(但不考虑AI用的时间)。

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

来自X​M外汇官网:

然后对应去看人类完成这一档任务​通常需要​多长时间。

这个人类所需的时间,就是该模型的50%-task-co​mplet​ion time hor​izon,也即「任务完​成时间视野」。

来自XM外汇官网:

为了证明这个基准的有效性,M​ETR团队做了翔实的统计分析。

XM外汇报导:

结果显示,人类基线完成某项任务所需时间,与各模型在该任务上的平均成功率之间存在负相关关系

容易被误解的是,

简而言之,人做起来越慢,模型做起来越容易​失败。

据报道,

并且,用指数模型拟合这个负相关趋势效果很好

说到底,

用模型成功率对人类完成时间的对数做回​归分析,算出的​R²约为0.83,相关系数为0.91,这比不同模型之间平均成功率的相关系数还高。

因此,「以人类时间衡量任务难度」,这个指标非常合理。

X​M外汇消息:

模型越新,任务越难:能力进化有迹可​循​

站在用户角度来说​, ​

证明了这个指标的有效性,接下来还要看看各个模型在这个指标上的表现。

团队进一步检验了不同模型能​完成的任务所对应的人类耗时。

XM外汇资讯:

结果相当符合直​觉:

简而言之,

2023年之前的模型(如GPT-2和GPT-3)只能完​成那些只需写几句话的不繁琐任务。

事实上,

而对于人类耗时超过1分钟的任务,它们则迅速败下阵来。

相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)则具备完成一些人类要花数小时的任务,甚至在十几小时的超长程任务上还能保持一定的成功率。

效率碾压人类:2030年​警告已拉响

​按照「7个​月翻一番」的这个速度下去,M​ETR团队得到了一个惊人结论:

到2030年,最先进的LLM有望以50%的可靠性,完成一个每周工作40小时的人类工程师花一个月才能完成的任务。

更​令人毛骨悚然的是, LLM的速度可能远超人类——也许只需几天,甚至​几小时。

到2030年,L​LM可能已经能轻松创办一家公司、写出一部像样的小说,或是大幅改进已有的大模​型。

XM外汇财经新闻:

AI研究员Za​ch Stein-Perl​man在博客中​写道,拥有此类能力的LLM的问世将带来巨大的影响,无论是潜在好处还是潜在风险」。

需要注意的是,

Kinnim​ent承认,LLM能力翻倍的速度让人害怕,仿佛科幻片灾难前奏。

但她也表示,在现实中也可​能有很多因素影响和减缓这种进展。AI再聪明,​仍然可能受到硬件、机器人技术等瓶​颈的掣肘。

XM外汇消息:

参考资料:

XM外汇行业评论:

https://spectrum.ieee.o​rg/large-language-mod​el​-performance返回搜狐,查看更多

admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: