OpenAI夺金IOI，但输给3位中国高中生

发表评论

A+

所属分类：科技

摘要

有意思的是，OpenAI表示，这次并未为IOI训练新的参赛模型，而是集成了多个通用推理模型参赛。 OpenAI表示他们正式参加了IOI的线上AI赛道，规则和人类参赛者一样，有5小时的时间限制和50次的提交次…” />

XM外汇行业评论：

西风发自凹非寺

量子位 | 公众号 QbitAI

不可忽视的是，

刚刚，OpenAI官宣：IOI金牌收入囊中！

XM外汇认为：

其推理模型在今年IOI线上竞赛中成绩刷新纪录：

根据公开数据显示，

总分533.29，在全球330名人类选手中总排名位列第六；而在所有AI参赛者中，稳居第一。

令人惊讶的是，

PS：AI没比过的五个人里，有三个都是咱中国人，分别是刘恒熙（宁波市镇海中学）、范斯喆（浙江省诸暨市海亮高级中学）、陈昕阳（杭州第二中学）。

XM外汇行业评论：

有意思的是，OpenAI表示，这次并未为IOI训练新的参赛模型，而是集成了多个通用推理模型参赛。

可能你也遇到过，

并且这个夺金系统和前不久OpenAI自称在IMO中夺金的，还是同一个。

XM外汇消息：

从成绩上来说，此AI推理系统相比去年模型在IOI上的表现进步了不止一点半点。

IOI 2024 OpenAI还专门在o1基础上进行针对性训练，最终得到的o1-ioi，在严格的比赛规则下仅拿到213分。

很多人不知道，

今年靠通用模型直接夺金，排名大跃升，网友直呼震撼。

据相关资料显示，

不过，前段时间OpenAI自称模型拿下IMO金牌一事引发不少争议，这次面对IOI的成绩，网友们明显谨慎了许多：

综上所述，

到底是真的很了不起的成就，还是又一个营销噱头……

容易被误解的是，

到底是真的很了不起的成就，还是又一个营销噱头……

XM外汇快讯：

展开全文

与此同时，还有不少网友喊话“还我4o”。

很多人不知道，

更有意思的是，马斯克突然发布了IOI Benchmark排名，结果显示Grok 4在编码方面超越GPT-5获得第一（doge）。

其实，

来看这次OpenAI推理系统夺金细节。

需要注意的是，

和人类一样，5小时、50次限制

IOI（国际信息学奥林匹克竞赛）作为是全球中学生计算机科学领域的最高级别赛事，有着严苛且标准化的赛制：

参赛学生需历经2天赛程，每天在5小时内独立处理3道高难度算法题，全程断网且无法借助外部资料，最终提交C++代码方案，由隐藏测试用例自动评分。

IOI 2025总共有来自84个国家的330名参赛者参赛。满分600分，金牌分数线是438.30分，最终只有28名参赛者获得金牌。

有分析指出，

OpenAI表示他们正式参加了IOI的线上AI赛道，规则和人类参赛者一样，有5小时的时间限制和50次的提交次数限制。

不可忽视的是，

并且AI系统在竞赛过程中全程未采取互联网或检索增强生成（RAG）技术，仅能采取基础的终端插件。

很多人不知道，

具体来说，他们整合了几个强大的推理模型，生成候选程序，运行这些程序，然后提交最优解。唯一的辅助工作是：挑选要提交的尝试资料，并与竞赛API交互。

XM外汇认为：

在IOI线上AI赛道中，通过API获取题目并提交解答，不会接受竞赛组织者的直接监督。

OpenAI最新AI推理系统的表现超越98%的参赛者，不论是成绩还是方法上都和去年形成鲜明对比。

在IOI 2024中，OpenAI采取了o1-ioi模型，这是一个在o1基础上针对编程任务进行强化学习微调的专用模型。

但实际上，

o1-ioi严重依赖一套棘手且由人工设计的test-time推理策略（类似AlphaCode的人工设计的test-time推理策略），包括：

大家常常忽略的是，

为每个子任务生成10000个候选解
基于模型自生成的测试用例对解法进行聚类和排序
结合学习到的评分函数 XM官网来筛选最终提交的50个方案

站在用户角度来说，

为每个子任务生成10000个候选解

XM外汇专家观点：

基于模型自生成的测试用例对解法进行聚类和排序

结合学习到的评分函数来筛选最终提交的50个方案

大家常常忽略的是，

尽管投入了大量工程技巧，o1-ioi在IOI 2024中仅获得213分，排名第49百分位，与铜牌失之交臂。

简而言之，

One More Thing

令人惊讶的是，

谢赛宁团队前段时间推出了一个包含来自IOI、Codeforces和ICPC的竞赛级编程难点的实时基准测试——LiveCodeBench Pro。

XM外汇资讯：

GPT-5最新测试成绩出炉：

很多人不知道，

GPT-5 Thinking在2025年第一季度的测试组中完成了突破，是唯一一个解出难题分组的模型，而且这还不是更高级的“Thinking Pro”版本。

可能你也遇到过，

GPT-5 Thinking在2025年第一季度的测试组中完成了突破，是唯一一个解出难题分组的模型，而且这还不是更高级的“Thinking Pro”版本。

简要回顾一下，

平均响应长度方面，GPT-5超过10万token，是o3的3倍。

尤其值得一提的是，

参考链接：返回搜狐，查看更多

发表评论取消回复