- A+
新智元报道
尽管如此,
编辑:定慧 犀牛
据相关资料显示,
【新智元导读】智谱新一代旗舰「融合大模型」GLM-4.5,集成推理、代码与智能体能力,实现原生智能体模式。该模型具备极高性价比与生成速度,接受全栈Agent开发、网页创作、PPT生成等多用途,实际表现惊艳。
GPT-5还没影子,但国产这边一个「融合大模型」已经炸出来了!
智谱「悄悄的」发布了最新的旗舰版本模型GLM-4.5,这是一个全新的「融合大模型」,主打Agent Foundation Model。
其实,
相较于其他模型竞相「卷参数、刷榜单」,GLM-4.5这次选取了不一样的路线——不跟风,不内卷,而是直接「狙击GPT-5」!
GLM-4.5融合ARC(Agentic/Reasoning/Coding)能力,将推理、编程与Agent能力原生整合,走向更通用、更高效的AI形态。
据报道,
体验地址:https://chat.z.ai/
XM外汇用户评价:
都说GPT-5也要融合o系列、GPT系列和Agent能力,但是奥特曼一直跳票,没想到被本平台「领先了」。
事实上,
值得一提的是,OpenAI还在6月25日公开叫板智谱,在一篇名为《Chinese Progress at the Front》的文稿中,OpenAI将智谱(而不是DeepSeeek)列入全球竞争对手,出乎所有人意料。
这也讲解智谱已经能够威胁到OpenAI的发展。
概括一下,
既然已经公开叫板,智谱不再低调了,这个最新模型就要干翻o3!
据业内人士透露,
最近,有人爆料GPT-5在WebDev Arena上有个匿名为「龙虾」的测试版。说是测试后效果惊人,用同样的提示词左边是GPT-5生成的页面,右边是Grok 4版本,看起来确实GPT-5生成的页面更「炫酷」。
XM外汇快讯:
但是用GLM-4.5实测后,本平台发现这个「融合模型」强得离谱,同样的提示词,随手「二连抽」的效果都是SSR级别!
XM外汇财经新闻:
这个效果还是能够交互的页面,画面表现能力和繁琐程度已经远超Grok 4,和GPT-5都不相上下。
XM外汇行业评论:
提示词:Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impressive, with no buttons—just scrolling or continuous animation. Make it breathtaking.
可能你也遇到过,
在GLM-4.5上本平台做了各种测试,然后就一发不可收拾了,这两天已经玩嗨了!
XM外汇认为:
GLM-4.5不仅能整活做网站,还能一键生成PPT,还新增「Full-Stack全栈用途」能够实现在线Agent,而且完成任务的源代码还能直接下载!
对于开发者来说,仅需两行代码就能够将GLM-4.5丝滑接入到现在最火的代码系统Claude Code中。
从此能够放弃又贵又不稳定的Claude api,体验到性能强劲、很便宜的GLM-4.5。
而且!智谱这次发布GLM-4.5下足了本钱,「智谱疯狂星期一,V我50,即可包月无限量调用API」!先到先得!
不可忽视的是,
它每次生成的效果都远超预期!
而且非常的快,能明显感受到任务吐「token」的速度遥遥领先。
尤其是这个模型给人的感觉就好像是打通了任督二脉,一下子融合了「智能体、推理和代码能力」的所有能力。
从某种意义上讲,
就好像只用一个模型,就同时拥有了Cladue Code+Manus+Reasoning Model的所有能力。
XM外汇消息:
再也不用像OpenAI的ChatGPT,每次还要选取运用哪个模式。
这才像未来AI该有的样子,AI就应该像钢铁侠「贾维斯」一样,只需Chat!
XM XM外汇平台 外汇消息:
运用GLM-4.5最直接的感受就是,太强了!
在模拟飞行器从地球飞往火星的过程,完全按照太空力学中的「霍曼转移轨道」(Hohmann transfer orbit)来构建。
请记住,
要知道这个Prompt当时很多网友实测Gemini 2.5、Claude和Grok时都没有实现。
这个页面用到了模型最新的Full-Stack全栈能力,完全就是一个在线Agent,这才是真正的Vibe Coding!
不可忽视的是,
为综合衡量模型的通用能力,智谱选取了最具有代表性的12个评测基准,包括MMLU Pro、AIME24、MATH 500、SciCode、GPQA、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCL v3和BrowseComp。
但实际上,
综合平均分,GLM-4.5取得了全球模型第三、国产模型第一,开源模型第一!
很多人不知道,
融合「更多」能力,实现最佳性能
尽管如此,
GLM-4.5为何选取将「融合」作为主攻的方向?
说到底,
所有大模型的目标都是为了实现AGI,但是关于如何定义AGI,学界还没有达成统一。
来自XM外汇官网:
从第一性原理出发,一个模型能够在不影响原有能力的情况下,融合更多的通用智能能力一定是一个方向。
简而言之,
GLM-4.5就是对此理念的首次完整呈现。
GLM-4.5首次在单个模型中实现了推理、代码、Agentic等多能力原生融合:
据相关资料显示,
-
GLM-4.5在Agentic Coding盲测中实现国内最佳
-
GLM-4.5在推理、代码、智能体综合能力方面(平均分)刷新开源SOTA
GLM-4.5在Agentic Coding盲测中实现国内最佳
XM外汇消息:
GLM-4.5在推理、代码、智能体综合能力方面(平均分)刷新开源SOTA
GLM-4.5采用混合专家(MoE)架构,包括
容易被误解的是,
-
GLM-4.5:总参数量355B、激活参数量32B
从某种意义上讲,
-
GLM-4.5-Air:总参数量106B、激活参数量12B
大家常常忽略的是,
GLM-4.5:总参数量355B、激活参数量32B
从某种意义上讲,
GLM-4.5-Air:总参数量106B、激活参数量12B
GLM-4.5接受thinking(推理增强)与non-thinking(通用生成)两种工作模式,兼顾推理能力与通用响应效率。
这你可能没想到,
GLM-4.5的参数量为DeepSeek-R1的1/2、Kimi-K2的1/3,但在多项标准基准测试中表现得更为出色。
这得益于GLM模型更高的参数效率。
尤其值得一提的是,
GLM-4.5-Air以106B总参数/12B激活参数实现了核心突破,在Artificial Analysis等推理基准上超越Gemini 2.5 Flash、Qwen3-235B、Claude 4 Opus等大模型,性能位列国产前三。
在SWE-Bench Verified等图谱中,GLM-4.5系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5系列实现了最佳性能。
站在用户角度来说,
速度和性价比,国内SOTA
据相关资料显示,
GLM-4.5系列也在调用成本和生成效率上实现突破:API调用价格低至输入0.8元/百万tokens,输出2元/百万tokens,远低于主流模型定价。
值得注意的是,
同时,高速版本实测生成速度超过100tokens/秒,接受低延迟、高并发的实际部署需求。
尽管如此,
不过现在的新模型评测跑分也就看个热闹,真正还得要实测见真章!
就拿上面「模拟飞行器从地球飞往火星,并且完全遵循现实世界物理规律」来测试,大部分只写前端代码的模型几乎都很难一次搞定。
不可忽视的是,
本平台先让GLM-4.5先不要考虑真实物理参数,而是演示完整的运动路径。
GLM-4.5一下子就理解了!
GLM-4.5画出了飞行器飞往火星的演示过程,并且还传递了两种视角。
必须指出的是,
一种是全局视角。
另一种是「第一视角」,诸位能够跟随飞行器从地球飞往火星。
GLM-4.5还贴心的在飞行器后面「画了」一个喷火的尾焰,不要太绝!
但是,这依然只是展示,如果想要让飞行器完全按照真实飞行来构建呢?
与其相反的是,
这里就需要选取Full-Stack!
不可忽视的是,
通过Full-Stack,GLM-4.5就能构建一个完整的应用。
同样的提示词,运用全栈用途后,最终的效果要比单纯的写一段前端网页代码要Solid太多。
综上所述,
这个比例基本也符合本平台对于广袤宇宙的认识,一艘飞行器孤独地前往火星。
选中全栈用途,诸位甚至能够获得这个项目所有源代码!这不就是相当于一个Cursor了吗?!
关键在于,这些都是免费开源的!
XM外汇财经新闻:
丝滑接入Claude Code
容易被误解的是,
GLM-4.5的代码能力如此之强,诸位还能够通过一个兼容Anthropic API的端点将其与Claude Code集成。
有分析指出,
只需要两行代码,就能用GLM-4.5来驱动诸位的Claude Code了。
站在用户角度来说,
方法也十分便捷。
首先,申请一个智谱开放平台API Key。
不妨想一想,
地址:https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
更重要的是,
安装Claude Code后,运行以下两行代码即可。
-
看到这个画面后,就能够运用啦。
但实际上,
本平台用最常见的贪吃蛇游戏来测试一下以GLM-4.5为核心的Claude Code效果如何。
不可忽视的是,
中间经过一次对话调整后,GLM-4.5成功生成一个相当炸裂的、完全符合提示要求的游戏!
从某种意义上讲,
游戏不仅画面精美、计分准确,得分后还会有一个十分自然的动画效果,非常惊艳。
AI PPT:打工人的最佳「伴侣」
此次GLM-4.5还有一个用途也惊艳到了本平台。
简要回顾一下,
就是这个AI PPT(AI Sliders)用途!
XM外汇资讯:
实际测试后,真的和别的Agent制作PPT的感受完全不同!
下面这个是默认的例子,诸位能够看到整个PPT的配色和风格并不是像其他Agent的单一母版背景。
并且制作好的PPT也能够一键发布,分享给任何人。
更重要的是,
PPT生成后可一键发布
有分析指出,
在测试中,只上传了一张图片,就能让GLM-4.5「看图说话」,比如这张很抽象的把「奥特曼+龙虾+GPT-5」放一起封面。
可能你也遇到过,
最终生成PPT演示
GLM-4.5能够准确的把握到图片中信息,并且还调用了搜索引擎完善了资料。
不论是「整活」测试代码能力,还是「正经」的完成PPT制作,GLM-4.5都远超预期。
必须指出的是,
运用下来最大的感受,「如丝般顺滑」,每一个任务都几乎没有卡壳,也不用多次抽卡,几乎每个任务都能有效完成。
并且由于GLM-4.5在模型中融合ARC能力(Agentic / Reasoning / Coding),几乎任何状况都能够在「当前聊天框」里排除。
XM外汇快讯:
比如我能够让GLM-4.5帮我临时制作一个生辰八字计算器。
在ARC和Full-Stack能力的加持下,日常需求直接就能够转化为产品,不仅自己可用,而且能够分享出去。
尤其值得一提的是,
大模型的「军备竞赛」发展至今,光是听说的模型已经两只手都数不过来了,ChatGPT、Gemini、Claude、Qwen、DeepSeek、GLM、Kimi…
更重要的是,
OpenAI的ChatGPT更是给模型起了多个名字:GPT-4.1、GPT-4.5、o1-pro、o3、o3-pro、o4-mini。。。简直让人无从下手。
简要回顾一下,
但是很多模型都忘记了AI原本是要「服务于人」的初衷,变成了刷榜比赛,比如Meta的Llama 4的滑铁卢就考虑到刷榜丑闻而起。
值得注意的是,
这次,智谱GLM4.5和OpenAI GPT-5「心照不宣」的都决定采用「融合大模型」路线。
说到底,
放弃刷榜和无聊的命名游戏,回归到真正追求AGI的初心。
就像智谱所说,真实体验永远比刷榜更核心。
事实上,
目前,GLM-4.5的API已上线开放平台BigModel.cn,能够一键兼容Claude Code框架。 也能够上智谱清言(chatglm.cn)和Z.ai免费体验满血版。
综上所述,
国内访客:
有分析指出,
https://docs.bigmodel.cn/cn/guide/develop/claude
根据公开数据显示,
海外访客:
尽管如此,
https://docs.z.ai/scenario-example/develop-tools/claude
体验地址:
据业内人士透露,
https://chat.z.ai/
需要注意的是,
https://chatglm.cn
根据公开数据显示,
Github仓库:
据业内人士透露,
https://github.com/zai-org/GLM-4.5
容易被误解的是,
模型仓库:
不妨想一想,
HuggingFace:
尤其值得一提的是,
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
请记住,
ModelScope:
令人惊讶的是,
https://modelscope.cn/collections/GLM-45-b8693e2a08984f
尽管如此,
同时,智谱还公布了实测的52道题目及Agent轨迹,供业界验证。
容易被误解的是,
Agent轨迹:
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
参考资料:
XM外汇行业评论:
https://chatglm.cn/
其实,
https://chat.z.ai/返回搜狐,查看更多