值得注意的是，数学圈地震！o3靠直觉刷爆人类顶尖难题，14位专家集体破防

发表评论

A+

所属分类：科技

摘要

第二个问题是：这些推理模型在目前的弱项（比如创造力和形式化推理）方面，未来还能改进到什么程度？比如，我们可以把o3-mini-high的推理方式和AlphaProof这样的系统作比较——后者主要甚至完全基…” />

但实际上，

新智元报道

说出来你可能不信，

编辑：桃子犀牛

大家常常忽略的是，

【新智元导读】推理模型如何攻克数学难题？Epoch AI新研究发现，o3-mini-high不仅具备渊博学识，还会基于直觉解题。然而，它的推理风格过于依赖直觉，缺乏严谨性和创造力，甚至偶尔「投机取巧」。

推理模型不会推理，一夜成为硅谷最热门的话题。

然而，

来自Epoch AI最新报告称，o3-mini-high不仅会推理，还能破解顶尖数学难题。

说出来你可能不信，

14位数学家组团，共同评估o3在29道FrontierMath推理能力。

不妨想一想，

结果惊奇地发现，o3-mini-high完全凭借「数学直觉」破解了难题，并非依靠单纯死记硬背完成。

来自XM外汇官网：

展开全文

他们还发现，o3具备一种类似物理学家思维方法，许多推理步骤流程缺少严格的论证、精确的证明。

从某种意义上讲，

一位数学家称之为，「基于直觉的归纳推理器」。

XM外汇用户评价：

缺乏创造力和深入的理解，成为o3最大的弱点。

据业内人士透露，

在29道数学题考试中，o3-mini-high都有哪些表现，以下是报告所有细节。

o3攻克13题，学识直觉兼具

在29个推理过程中，有13个得出了正确答案——o3-mini-high到底是怎么搞定这些数学难题的呢？

XM外汇行业评论：

超强学识——不只是死记硬背

一个关键因素是它那惊人的学识，这一点毫不意外，毕竟它接受了海量数据的训练。

o3-mini-high能应对各种领域的FrontierMath困扰，数学家们一致认为它的知识储备非常丰富。

与其相反的是，

一位数学家评价说：「o3-mini-high能准确扩展困扰的数学背景，涉及一些非常高深的概念。它的通用知识和对困扰的理解完全不是瓶颈。」

简要回顾一下，

而且，这可不是单纯的死记硬背。

总的来说，

即使困扰设计者故意隐藏了解题所需的关键技术，数学家们普遍发现，o3-mini-high依然有不错的能力调用正确的定理来推进解题。

简要回顾一下，

特别是在大约66%的推理中，数学家们对模型调用相关数学结果的能力给出了至少3分（满分5分）的高评价。

评审数学家普遍发现，o3-mini-high在调用数学文献中的相关结果方面表现尚可，在约三分之二的困扰上获得了3/5或更高的评分

全凭直觉，缺少精确

如前所述，o3-mini-high推理过程，更倾向于非正式的风格。

简言之，它是一个「基于直觉的归纳推理器」，并且拥有类似数学家好奇心，找出应对困扰的最不棘手的方法。

概括一下，

不过，在数学家看来，o3思考过程略显随意，不够精确。

必须指出的是，

而且，其初始思路表述往往很粗糙，用语也不够严谨。存在一些在正式数学论文中不被接受的特殊情况。

简而言之，

o3-mini-high为何不采用更形式化的推理？

请记住，

Epoch尚未完全弄清其中缘由，但至少具备确定，并不仅仅是「模型偷懒」那么不棘手。

总的来说，

比如，他们发现，o3在需要的时候，会毫不犹豫地进行计算和写代码。

然而，

这一看似并不起眼的繁琐步骤流程，却具备让模型能够保持更扎实、更少抽象的风格。

据相关资料显示，

不可否认，其推理依旧依赖的是直觉。

事实上，

而且，另一种可能是，预训练中「形式化推理」数据集占比少，后期难以完美激发o3所有潜力。

有分析指出，

三大短板曝出

缺乏精确性

上面提到的形式化精确性不足困扰，是o3-mini-high的主要短板之一。

容易被误解的是，

比如，一位数学家指出：「o3-mini-high相比人类数学家的一个明显不足在于，它不会在发现某个结论后尝试去证明它。」

有分析指出，

在一个案例中，o3-mini-high通过非正式推理提出了一个正确的猜想，但完全没有尝试去证明这个猜想，而是直接用这个猜想来应对困扰。

综上所述，

最后还得到了正确答案。

他们把这种情况称之为「投机取巧」（cheesing）。

也就是说，模型基本上是靠猜答案，而没有经过完整的推理过程，完整的推理应该包括去证明相关的猜想。

说出来你可能不信，

在模型得出正确答案的推理过程中，投机取巧的情况占了相当少的部分：

「投机取巧」现象相对常见，但o3-mini-high在绝大多数情况下都能正确应对困扰，且没有任何投机取巧行为（即得分为5）。该图仅适用于o3-mini-high正确回答所提困扰的推理轨迹

有时，o3-mini-high的思路大致是对的，但未能得出正确答案，仅仅是由于它未能建立起最后关键的联系。

尽管如此，

比如，在一个关于划分理论的困扰中，模型只差一步就能答对，作者评论说：「如果它把n=0到某个数的输出求和，答案就对了。我对它的表现真的很佩服。」

说出来你可能不信，

不过，更多时候，o3-mini-high并没有这么接近应对困扰，如下图所示：

从某种意义上讲，

只有大约18%的情况下，o3-mini-high得到错误解的情况非常接近正确解——总体而言，推理的正确程度分布更为广泛

容易被误解的是，

缺乏创造力和深刻理解

数学家们认为，o3-mini-high最大的局限性在于缺乏创造力和深刻的理解，尤其是与具有同等知识水平的人类相比。

一位数学家这样总结道：

XM外汇财经新闻：

这个模型就像一个勤奋的研究生，读了很多书，能随口说出很多结果和作者的名字。初看之下挺厉害，但专家很快就会发现，这个「学生」并没有真正深入理解这些材料，大多只是鹦鹉学舌般地复述。

换个角度来看，

另一位数学家则说：

这个模型有几个它偏爱的思路，总是试图套用这些想法。

XM外汇财经新闻：

一旦这几个思路用尽，就没有实质性进展了。

我觉得这挺让人失望的，作为一个专业组合数学家，我会期待它能更具创造性地应对困扰，或者换个角度去思考（即便这些尝试可能会失败）。

概括一下，

有位数学家甚至打趣道：「让AI解一道需要新思路的八年级数学竞赛题，可能比算一个大有限域上的超椭圆曲线有多少个点还难。」

需要注意的是，

虽然这话听起来夸张，但它反映的情况和大多数数学家的观察差不多。

幻觉困扰

概括一下，

XM外汇代理模型还表现出许多其他失败模式。

一个显著困扰是，大约75%的推理过程包含「幻觉」，经常记错数学术语和公式。

简而言之，

例如，一位数学家指出：「虽然它常常能回忆起相关公式的名字，但却无法准确复现，经常在无法回忆细节的地方插入占位符，如(…)。」

XM外汇专家观点：

o3-mini-high在采取系统和资源（如网络搜索）时也存在困扰。

反过来看，

比如，有人描述它「试图从许多它幻想出来的不存在的URL中获取信息」。这类困扰在需要准确表达非常冷门的数学结果时就显得尤为关键。

不妨想一想，

的确，有一位受访者认为：「一个能够执行类似浏览Google或arXiv，以查找潜在相关结果的智能体系统将大大提高它们在实际困扰中的表现。」

有分析指出，

推理像人，又不像人，为何？

o3-mini-high推理过程，与人类数学家有相似之处吗？

对此，Epoch AI针对模型CoT和人类数学家进行了比对。整体讲，最终答案因不同数学家、推理过程而异。

概括一下，

如下图所示，数学家对o3-mini-high推理像人程度，进行了打分。

虽没有达到完全无法区分的程度，但AI在解答四道题目中，拿下了与人类数学家思维过程类似的成绩。

1分表示推理完全不像人类，5分表示推理与人类数学家无法区分

大家常常忽略的是，

此外，在其他区间，o3均有涉及。为何跨度如此广泛？

研究团队分析称，之从而有这么大的差异，与o3-mini-high具备多样化能力组合有关，至少对于人类来说是这样。

通常情况下，

一方面，它似乎非常擅长像人类一样推理困扰，表现出好奇心并探索困扰的不同应对路径。

另一方面，它似乎知识过于渊博，缺乏创造力和严谨性，而且还有一些奇怪的「怪癖」。

容易被误解的是，

做题过程中，o3-mini-high推理过程往往非常冗长。甚至数学家形象地将其比作——口试中长篇大论的学生，倒也不是坏事。

概括一下，

然而，并非所有的冗长推理细节，都明显有用。有时，AI在提交最终答案时，会出现类人的「焦虑」情绪。

可能你也遇到过，

举个例子，o3-mini-high会最终陷入一种「反复重述」的循环怪圈——

反过来看，

已完成解答，上面推理过程就是最终答案，还夹杂着自我怀疑的内心OS，然后又重新一步步计算得出最终公式的某些算术。

不仅是o3，任何一个推理模型，都会陷入这类的死循环。

至少在这种情况下，模型的推理过程明显不像一个冷静的人类数学家。

讨论

值得注意的是，

基于以上材料，咱们具备不棘手地将o3-mini-high总结为「一个博学但基于感觉的推理者，缺乏专业数学家的创造力和严谨性，且倾向于奇怪地冗长或重复」。

不可忽视的是，

这似乎与咱们在网上看到的数学家的观点大体一致。

尤其值得一提的是，

他们认为，这一分析自然而然地引出了两个关键困扰。

第一个困扰是：为什么像o3-mini-high这样的推理模型会展现出这些特性？

XM外汇资讯：

一部分原因显而易见——这些模型之从而博学，是由于它们在大量数据上接受了训练，其中包括了大量公开的数学文献。

不可忽视的是，

但更让人好奇的是，为什么这些模型并不能更深入地利用已有知识，在不同数学子领域之间建立更多联系，或者更具创造性地提出新想法？

这个困扰的答案仍不明朗。

需要注意的是，

第二个困扰是：这些推理模型在目前的弱项（比如创造力和形式化推理）方面，未来还能改进到什么程度？而这样的进步，又会怎样重塑整个数学推理的方法？

来自XM外汇官网：

比如，咱们具备把o3-mini-high的推理方法和AlphaProof这样的系统作比较——后者主要甚至完全基于合成数据训练，因此它「见过」的数学世界可能完全不同。

考虑到数学本身对合成数据的高度适应性，有理由认为，未来的推理模型在思维方法上可能会和人类数学家越来越不一样。

必须指出的是，

当然，咱们现在的理解还只是刚刚触及这些模型工作机制的表层。希望未来能有更多类似的分析，来揭示这些系统背后的深层逻辑。

请记住，

参考资料：

总的来说，

https://epoch.ai/gradient-updates/beyond-benchmark-scores-analysing-o3-mini-math-reasoning返回搜狐，查看更多

发表评论取消回复