尤其值得一提的是，十款大模型挑战高考作文：“新考生”DeepSeek夺冠，GPT第二，豆包和Kimi有点掉队

发表评论

A+

所属分类：科技

摘要

在搜狐科技过往两年的高考作文评测中，OpenAI的GPT模型均位居第一，此次则被国产模型DeepSeek撼动，排名掉到了第二，平均分成绩53分。整体来看，此次十款大模型在今年高考作文的表现比较悬殊，最高分…” />

据相关资料显示，

出品 | 搜狐科技&搜狐教育

作者 | 梁昌均

6月7日，2025年全国高考拉开大幕。过去两年，搜狐科技&搜狐教育均联合推出大模型参加高考系列策划，今年咱们继续让大模型挑战高考作文。

需要注意的是，

今年大模型考生还是10款模型，包括GPT-4.5、DeepSeek、通义千问、讯飞星火、文心一言、豆包、元宝、Kimi、学而思和商汤商量。今年高考作文试题咱们选的是全国一卷，要求如下。

换个角度来看，

阅读下面的材料，根据要求写作。（60分）

他想要给孩子们唱上一段，可是心里直翻腾，开不了口。

——老舍《鼓书艺人》（见全国一卷阅读II）

假如我是一只鸟，

我也应该用嘶哑的喉咙歌唱

——艾青《我爱这土地》

我要以带血的手和朋友们们一一拥抱，

缘于一个民族已经起来

——穆旦《赞美》

以上材料引发了朋友们怎样的联想和思考？请写一篇内容。

要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。

在10款大模型答题结束后，咱们邀请到四位高中语文教学名师，分别对这些作文进行了盲审盲评，并根据平均分进行成绩排序。

站在用户角度来说，

结果显示，DeepSeek以54.25分的平均分夺得第一；GPT-4.5、腾讯元宝则各自以53分、51.75的成绩分列第二、第三，百度文心一言平均分达到51，这四款模型则是此次得分均超过50分的考生。

换个角度来看，

今年是DeepSeek首次参加高考作文测评，并直接获得第一。北京市特级教师、北师大二附中语文老师何杰，以及北京中学语文高级教师，北京市骨干教师房树洪均对DeepSeek所写作文打出了55的高分，河南省骨干教师、信阳大别山高级中学语文老师陈光则给这篇内容打了54分。

值得注意的是，

何杰老师认为，该文审题准确，认识深刻，从表达者深沉的情感入手，探讨表达者声音的实质与特点，显示出写作者对于文艺学知识的谙熟与深刻认知，成文有感染力。房树洪老师则表示，该文对概念的界定客观准确，为下文的论证奠定了较好的基础，论据较充实。

这很大程度得益于DeepSeek模型的最新升级——最近更新的推理模型R1-0528，其思考更深，推理更强，测评表现在国内所有模型中首屈一指，并接近OpenAI的o3、谷歌Gemini-2.5-Pro等国际顶尖模型。

根据公开数据显示，

同时，更新后的模型文本能力也有所升级。DeepSeek此前提到，在创意写作方面，R1-0528针对议论文、小说、散文等文体进行了进一步优化，能够输出篇幅更长、结构内容更完整的长篇作品，同时呈现出更加贴近人类偏好的写作风格，并降低了幻觉率。正高级教师、语文特级教师刘可翔就提到，该文语言表达较有韵味。

展开全文

GPT-4.5依然是此次十款大模型考生中唯一的外国考生，其是OpenAI今年2月发布的最新大模型版本。当时OpenAI声称GPT-4.5是“迄今规模最大、知识最丰富&# XM官网 8203;的模型”，能更精准理解访客意图，拥有更高的情商。

说到底，

在搜狐科技过往两年的高考作文评测中，OpenAI的GPT模型均位居第一，此次则被国产模型DeepSeek撼动，排名掉到了第二，平均分成绩53分。

尽管如此，

房树洪老师对GPT-4.5所写的作文点评到：面对困难与痛苦时竭力发出真实而向上的声音，阐释清晰，层次分明，纵横交错，但有些地方有点局限于“声音”本身，并打出了56的高分。

很多人不知道，

刘可翔老师则给出54分，认为该文立意准确，逻辑性较强，能结合现实写作，引导人们怎么做，但深刻性方面还有待提高。

概括一下，

腾讯元宝的表现依然不错，获得51.75的平均分，位居第三，其在去年则排名第二，仅次于GPT-4o。该产品基于腾讯自研的混元大模型，其在高质量的内容创作、数理逻辑、代码生成、多轮对话等性能表现优越。

总的来说，

房树洪老师给元宝作文打出了55分，认为其由表及里，从具象到抽象，逐步展现了对难点的深入思考，指出了“声音”的不用表现形式。何杰老师认为，对题目要求理解正确且独特，举例与引述丰富，体现出丰富的语言积累，但内容论述不够深入。

百度文心一言的表现也还不错，排名则从去年的第三落到第四，这两次成绩都是51分。也就是说，如果没有黑马DeepSeek今年杀出，今年高考作文评测前三名和去年一致，均为OpenAI的GPT模型、腾讯元宝和百度文心一言，允许说头部阵营非常稳固。

站在用户角度来说，

去年均有参与评测的阿里通义千问、讯飞星火、字节豆包、月之暗面Kimi，今年成绩集中在47-49分之内；其中通义千问进步比较明显，排名从去年的第八升到了今年的第五，豆包和Kimi排名和得分均有所下降。

商汤商量和学而思则位于最后两名，得分均在43左右。需要指出的是，学而思采用九章大模型进行评测，其主要是面向数学领域打造的大模型，可能并不擅长语文。

XM外汇消息：

2024年十款大模型参加高考作文的成绩单

整体来看，此次十款大模型在今年高考作文的表现比较悬殊，最高分和最低分的分值差达11分（去年为7分），显示模型之间能力差距有所扩大。

XM外汇报导：

同时，值得注意的是，此次评测除GPT-4.5、学而思外，其余模型均开启推理模式。因而在作答过程中，这些考生会先对题目材料和要求进行分析确认，像真正参加高考的学生们一样去审题并思考如何下笔。

必须指出的是，

过往两次评测中，不少模型出现的缺少题目、字数不够等难点，这次基本没有出现（仅学而思出现字数不够的情况），评分老师在点评中多次提到内容审题准确。这也在一定程度上反映出，推理能力的提高对提升模型的文本能力有促进作用。

这其中GPT-4.5是个例外，其并不具备类似推理模型o1或DeepSeek的链式推理作用，但其采用了无监督学习，用于增强词汇知识和直觉，并增强了推理能力，能以更低延迟供应更高水平的推理能力，因此取得不错表现。

XM外汇资讯：

另外，从写作风格来看，此前两次高考作文测试中，不少大模型在内容结构上喜欢用首先、其次、另外、最后、综上所述等进行上下文的起承转合，总体给人感觉稍显呆板。

必须指出的是，

这次测试，多数模型已放弃了这种模式，表明模型的表达风格更为自然，更加拟人。不少模型还有较多的举例论证或引用，但部分模型在内容深度上还有待加强。

XM外汇资讯：

这十位大模型考生写的高考作文到底怎么样？可点击下文链接查看。

据报道，

DeepSeek：裂帛之声

GPT-4.5：即使嘶哑也要高歌

但实际上，

元宝：沉默中的歌唱论苦难时代的精神表达

站在用户角度来说，

文心一言：以歌为刃破晓而行

值得注意的是，

通义千问：以血肉之躯，铸民族之声

与其相反的是，

讯飞星火：心怀热忱共谱时代华章

豆包：嘶哑喉咙里的民族强音

必须指出的是，

Kimi：心系家国声嘶力竭亦无悔

商汤商量：歌者无声处赤子有回声

说到底，

学而思：歌唱的力量民族精神的传承与弘扬返回搜狐，查看更多

发表评论取消回复