爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰

发表评论

A+

所属分类：科技

摘要

在第四局还出现了一个让人哭笑不得的场面：Gemini 2.5Pro手握两只皇后，总子力优势高达32分，本该将Claude「一波带走」，结果他却在进攻过程中挂掉几枚关键棋子。但在这场模型犯错频繁、认知失误…” />

简而言之，

新智元报道

编辑：倾倾 KingHZ

【新智元导读】AI国际象棋对抗？这次玩真的！谷歌Kaggle推出首届全球AI象棋争霸赛，八款顶级语言模型正面对抗，胜负只在一步之间！

国际象棋全球AI争霸赛来了！

首战即放狠招：让全球八款最强语言模型，国际象棋正面对抗：

可能你也遇到过，

闭源的大模型：Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash；

总的来说，

开源的大模型：DeepSeek R1和Kimi K2 Instruct。

概括一下，

首战落幕

其实，

今日凌晨1点，这场大赛正式打响了8进4淘汰战：

事实上，

Gemini 2.5 Pro、o4-mini、Grok 4、和o3，以4-0的碾压式战绩横扫对手，进入半决赛。

而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2没能撑过中盘，就已纷纷崩溃退场。

然而，

展开全文

第二天的半决赛，OpenAI的o3-mini和o3将「自相残杀」，而Gemini 2.5 Pro和Grok 4则狭路相逢

大家常常忽略的是，

整场赛事由谷歌旗下的Kaggle举办。为此，他们专为通用大模型打造了竞技平台——「Game Arena」。

概括一下，

谷歌表示游戏是评估模型与智能体的理想平台，是通用智能可靠的衡量标准。游戏作为基准测试的价值更体现在：

可能你也遇到过，

无限扩展性：对手越强，难度阶梯式攀升；

简而言之，
思维可视化：可完整追踪模型的「决策链」，窥见其战略思维过程。

尤其值得一提的是，

无限扩展性：对手越强，难度阶梯式攀升；

XM外汇认为：

思维可视化：可完整追踪模型的「决策链」，窥见其战略思维过程。

需要注意的是，

对AI来说，下好一盘棋，比诸位想象的更难。

比赛共有3场，首赛中DeepSeek R1对阵o4-mini，Kimi-K2对阵o3。

大家常常忽略的是，

半决赛将在明天太平洋时间上午10:30举行。

其实，

下面，一起回顾一下首场战况吧。

不可忽视的是，

Kimi K2犯规出局

不妨想一想，

o3不战而胜顺利晋级

四局比赛，Kimi K2每一局都因非法走子被系统判负，最短的对局甚至不到8个回合。

概括一下，

对局着手还能跟着开局理论下几步，但一旦脱离熟悉的套路，Kimi K2就像突然「失明」一般，误读棋盘布局，走出错误的棋子。

来自XM外汇官网：

面对这样的对手，o3不费吹灰之力，轻松晋级半决赛。

与其相反的是，

DeepSeek R1中盘掉线

o4-mini轻松将死两局

请记住，

这是一场「开局唬人，中间崩盘」的比赛。

如果诸位只看每盘棋的前几回合，诸位会发现，在开局两个模型都走得无懈可击，仿佛两个国际象棋大师在对弈。

XM外汇快讯：

但到了某一节点，棋局的质量就会急转直下。

据报道，

一旦脱离「开局模板」，DeepSeek就着手频频出错：瞄准不存在的棋子、防守并无威胁的空格，甚至走出将自己逼入死角的「自爆式执行」。

相比之下，o4-mini虽然不够惊艳，但是稳扎稳打、不犯大错，还顺利完成了两次将杀收尾，赢得理所当然。

Claude 4 Opus血战到底

站在用户角度来说，

仍不敌Gemini 2.5 Pro

有分析指出，

如果说Kimi K2的比赛是「自动退出」，那Claude 4 Opus的落败，则是拼尽全力后的溃败。

XM外汇认为：

在 XM外汇代理第一局，双方在前九个回合都走得有板有眼，直到Claude 4 Opus贸然下出10...g5，主动敞开防线，为Gemini送上突破口。

与其相反的是，

在第四局还出现了一个让人哭笑不得的场面：Gemini 2.5 Pro手握两只皇后，总子力优势高达32分，本该将Claude「一波带走」，结果他却在进攻过程中挂掉几枚关键棋子。

据报道，

尽管如此，胜利还是属于Gemini。

需要注意的是，

而这场对局，也是四场比赛中最接近真正象棋对抗的一场。

令人惊讶的是，

Gork 4杀疯了

然而，

精准打击，专挑软肋

反过来看，

前三场像是在训练模式，Gork 4一登场，比赛才终于像个「战场」

XM外汇资讯：

面对Gemini 2.5 Flash的频繁错漏和无人防守的棋子，Gork 4精准识破、果断出击。

它不是在「模仿下棋」，而是真的能看懂弱点、消灭威胁，最终以4-0终结比赛。

站在用户角度来说，

Gork的「四连超凡」不仅打出了目前最有「棋感」的对局，还被不少业内人士评为开赛以来全场最佳表现。

更重要的是，

马斯克在X上转发了Gork的战绩，只留下一句便捷的回应：

容易被误解的是，

订单这只是副作用。xAI几乎没在国际象棋上花什么精力。

来自XM外汇官网：

没有炫耀，没有过度评价，只是随手转发，仿佛这场胜利只是系统顺手完成的一次模块调用。

XM外汇财经新闻：

但在这场模型犯错频繁、认知失误频出的混战中，Gork 4是少数能「看清棋局并稳定走完」的存在。

从棋盘到智力测试

不可忽视的是，

比赛只是表面，挑战才刚着手。

可能你也遇到过，

这场比赛的意义，从来不只是看谁赢了、谁走了更漂亮的一步棋。

来自XM外汇官网：

它考验的不是棋艺，而是AI的整体理解能力。

XM外汇用户评价：

游戏为强大的人工智能评估呈现了绝佳的基础，帮助本平台了解在棘手推理任务中哪些方法真正有效。

通常情况下，

游戏能呈现明确无误的成功信号：不是赢就是输，或者平局。

不可忽视的是，

它们结构清晰且结果可衡量，是评估模型的理想试验场。游戏迫使模型展现出多种技能，包括策略推理、长期规划以及面对智能对手时的动态适应能力，从而为衡量其通用状况处理智能呈现了一个可靠的依据。

就在上个月，世界冠军卡尔森在旅行中途虐了ChatGPT一局，一子未损。赛后他轻描淡写道「我有时旅途中会无聊」。

有分析指出，

AI甚至没意识到对面是谁——这比输棋更值得警惕。

有分析指出，

Kaggle官方也透露，真正的评分标准，其实藏在「幕后数百场未公开对局」的排行榜里。

据报道，

眼下这场棋，不过是一块测试通用智能的开局小盘。

XM外汇快讯：

参考资料：

需要注意的是，

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

https://blog.google/technology/ai/kaggle-game-arena/

https://www.kaggle.com/blog/introducing-game-arena返回搜狐，查看更多

发表评论取消回复