- A+
XM外汇消息:
新智元报道
站在用户角度来说,
编辑:定慧 犀牛
简要回顾一下,
【新智元导读】智谱新一代旗舰「融合大模型」GLM-4.5,集成推理、代码与智能体能力,实现原生智能体模式。该模型具备极高性价比与生成速度,接受全栈Agent开发、网页创作、PPT生成等多用途,实际表现惊艳。
GPT-5还没影子,但国产这边一个「融合大模型」已经炸出来了!
XM外汇报导:
智谱「悄悄的」发布了最新的旗舰版本模型GLM-4.5,这是一个全新的「融合大模型」,主打Agent Foundation Model。
相较于其他模型竞相「卷参数、刷榜单」,GLM-4.5这次指定了不一样的路线——不跟风,不内卷,而是直接「狙击GPT-5」!
据相关资料显示,
GLM-4.5融合ARC(Agentic/Reasoning/Coding)能力,将推理、编程与Agent能力原生整合,走向更通用、更高效的AI形态。
大家常常忽略的是,
体验地址:https://chat.z.ai/
但实际上,
都说GPT-5也要融合o系列、GPT系列和Agent能力,但是奥特曼一直跳票,没想到被咱们「领先了」。
XM外汇用户评价:
值得一提的是,OpenAI还在6月25日公开叫板智谱,在一篇名为《Chinese Progress at the Front》的内容中,OpenAI将智谱(而不是DeepSeeek)列入全球竞争对手,出乎所有人意料。
这也讲解智谱已经可用威胁到OpenAI的发展。
但实际上,
既然已经公开叫板,智谱不再低调了,这个最新模型就要干翻o3!
需要注意的是,
最近,有人爆料GPT-5在WebDev Arena上有个匿名为「龙虾」的测试版。说是测试后效果惊人,用同样的提示词左边是GPT-5生成的页面,右边是Grok 4版本,看起来确实GPT-5生成的页面更「炫酷」。
从某种意义上讲,
但是用GLM-4.5实测后,咱们发现这个「融合模型」强得离谱,同样的提示词,随手「二连抽」的效果都是SSR级别!
这个效果还是可用交互的页面,画面表现能力和繁琐程度已经远超Grok 4,和GPT-5都不相上下。
XM外汇报导:
提示词:Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impre XM外汇官网 ssive, with no buttons—just scrolling or continuous animation. Make it breathtaking.
来自XM外汇官网:
在GLM-4.5上咱们做了各种测试,然后就一发不可收拾了,这两天已经玩嗨了!
XM外汇专家观点:
GLM-4.5不仅能整活做网站,还能一键生成PPT,还新增「Full-Stack全栈用途」可用实现在线Agent,而且完成任务的源代码还能直接下载!
通常情况下,
对于开发者来说,仅需两行代码就可用将GLM-4.5丝滑接入到现在最火的代码程序Claude Code中。
不可忽视的是,
从此可用放弃又贵又不稳定的Claude api,体验到性能强劲、很便宜的GLM-4.5。
事实上,
而且!智谱这次发布GLM-4.5下足了本钱,「智谱疯狂星期一,V我50,即可包月无限量调用API」!先到先得!
必须指出的是,
它每次生成的效果都远超预期!
说出来你可能不信,
而且非常的快,能明显感受到任务吐「token」的速度遥遥领先。
简要回顾一下,
尤其是这个模型给人的感觉就好像是打通了任督二脉,一下子融合了「智能体、推理和代码能力」的所有能力。
就好像只用一个模型,就同时拥有了Cladue Code+Manus+Reasoning Model的所有能力。
再也不用像OpenAI的ChatGPT,每次还要指定利用哪个模式。
令人惊讶的是,
这才像未来AI该有的样子,AI就应该像钢铁侠「贾维斯」一样,只需Chat!
XM外汇快讯:
利用GLM-4.5最直接的感受就是,太强了!
在模拟飞行器从地球飞往火星的过程,完全按照太空力学中的「霍曼转移轨道」(Hohmann transfer orbit)来构建。
很多人不知道,
要知道这个Prompt当时很多网友实测Gemini 2.5、Claude和Grok时都没有实现。
XM外汇财经新闻:
这个页面用到了模型最新的Full-Stack全栈能力,完全就是一个在线Agent,这才是真正的Vibe Coding!
不可忽视的是,
为综合衡量模型的通用能力,智谱指定了最具有代表性的12个评测基准,包括MMLU Pro、AIME24、MATH 500、SciCode、GPQA、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCL v3和BrowseComp。
XM外汇用户评价:
综合平均分,GLM-4.5取得了全球模型第三、国产模型第一,开源模型第一!
不可忽视的是,
融合「更多」能力,实现最佳性能
GLM-4.5为何指定将「融合」作为主攻的方向?
所有大模型的目标都是为了实现AGI,但是关于如何定义AGI,学界还没有达成统一。
说到底,
从第一性原理出发,一个模型能够在不影响原有能力的情况下,融合更多的通用智能能力一定是一个方向。
GLM-4.5就是对此理念的首次完整呈现。
与其相反的是,
GLM-4.5首次在单个模型中实现了推理、代码、Agentic等多能力原生融合:
XM外汇报导:
-
GLM-4.5在Agentic Coding盲测中实现国内最佳
XM外汇快讯:
-
GLM-4.5在推理、代码、智能体综合能力方面(平均分)刷新开源SOTA
来自XM外汇官网:
GLM-4.5在Agentic Coding盲测中实现国内最佳
值得注意的是,
GLM-4.5在推理、代码、智能体综合能力方面(平均分)刷新开源SOTA
令人惊讶的是,
GLM-4.5采用混合专家(MoE)架构,包括
简要回顾一下,
-
GLM-4.5:总参数量355B、激活参数量32B
这你可能没想到,
-
GLM-4.5-Air:总参数量106B、激活参数量12B
GLM-4.5:总参数量355B、激活参数量32B
尽管如此,
GLM-4.5-Air:总参数量106B、激活参数量12B
GLM-4.5接受thinking(推理增强)与non-thinking(通用生成)两种工作模式,兼顾推理能力与通用响应效率。
尽管如此,
GLM-4.5的参数量为DeepSeek-R1的1/2、Kimi-K2的1/3,但在多项标准基准测试中表现得更为出色。
简要回顾一下,
这得益于GLM模型更高的参数效率。
必须指出的是,
GLM-4.5-Air以106B总参数/12B激活参数实现了核心突破,在Artificial Analysis等推理基准上超越Gemini 2.5 Flash、Qwen3-235B、Claude 4 Opus等大模型,性能位列国产前三。
但实际上,
在SWE-Bench Verified等图谱中,GLM-4.5系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5系列实现了最佳性能。
速度和性价比,国内SOTA
从某种意义上讲,
GLM-4.5系列也在调用成本和生成效率上实现突破:API调用价格低至输入0.8元/百万tokens,输出2元/百万tokens,远低于主流模型定价。
请记住,
同时,高速版本实测生成速度超过100tokens/秒,接受低延迟、高并发的实际部署需求。
不过现在的新模型评测跑分也就看个热闹,真正还得要实测见真章!
XM外汇消息:
就拿上面「模拟飞行器从地球飞往火星,并且完全遵循现实世界物理规律」来测试,大部分只写前端代码的模型几乎都很难一次搞定。
综上所述,
咱们先让GLM-4.5先不要考虑真实物理参数,而是演示完整的运动路径。
GLM-4.5一下子就理解了!
GLM-4.5画出了飞行器飞往火星的演示过程,并且还传递了两种视角。
一种是全局视角。
可能你也遇到过,
另一种是「第一视角」,朋友们可用跟随飞行器从地球飞往火星。
GLM-4.5还贴心的在飞行器后面「画了」一个喷火的尾焰,不要太绝!
但是,这依然只是展示,如果想要让飞行器完全按照真实飞行来构建呢?
XM外汇专家观点:
这里就需要指定Full-Stack!
说出来你可能不信,
通过Full-Stack,GLM-4.5就能构建一个完整的应用。
值得注意的是,
同样的提示词,利用全栈用途后,最终的效果要比单纯的写一段前端网页代码要Solid太多。
从某种意义上讲,
这个比例基本也符合咱们对于广袤宇宙的认识,一艘飞行器孤独地前往火星。
根据公开数据显示,
选中全栈用途,朋友们甚至可用获得这个项目所有源代码!这不就是相当于一个Cursor了吗?!
总的来说,
关键在于,这些都是免费开源的!
根据公开数据显示,
丝滑接入Claude Code
GLM-4.5的代码能力如此之强,朋友们还可用通过一个兼容Anthropic API的端点将其与Claude Code集成。
需要注意的是,
只需要两行代码,就能用GLM-4.5来驱动朋友们的Claude Code了。
综上所述,
方法也十分轻松。
简而言之,
首先,申请一个智谱开放平台API Key。
XM外汇认为:
地址:https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
反过来看,
安装Claude Code后,运行以下两行代码即可。
看到这个视图后,就可用利用啦。
综上所述,
咱们用最常见的贪吃蛇游戏来测试一下以GLM-4.5为核心的Claude Code效果如何。
中间经过一次对话调整后,GLM-4.5成功生成一个相当炸裂的、完全符合提示要求的游戏!
站在用户角度来说,
游戏不仅画面精美、计分准确,得分后还会有一个十分自然的动画效果,非常惊艳。
反过来看,
AI PPT:打工人的最佳「伴侣」
XM外汇报导:
此次GLM-4.5还有一个用途也惊艳到了咱们。
就是这个AI PPT(AI Sliders)用途!
不可忽视的是,
实际测试后,真的和别的Agent制作PPT的感受完全不同!
综上所述,
下面这个是默认的例子,朋友们可用看到整个PPT的配色和风格并不是像其他Agent的单一母版背景。
并且制作好的PPT也可用一键发布,分享给任何人。
很多人不知道,
PPT生成后可一键发布
在测试中,只上传了一张图片,就能让GLM-4.5「看图说话」,比如这张很抽象的把「奥特曼+龙虾+GPT-5」放一起封面。
最终生成PPT演示
据业内人士透露,
GLM-4.5能够准确的把握到图片中信息,并且还调用了搜索引擎完善了材料。
大家常常忽略的是,
不论是「整活」测试代码能力,还是「正经」的完成PPT制作,GLM-4.5都远超预期。
XM外汇行业评论:
利用下来最大的感受,「如丝般顺滑」,每一个任务都几乎没有卡壳,也不用多次抽卡,几乎每个任务都能有效完成。
并且由于GLM-4.5在模型中融合ARC能力(Agentic / Reasoning / Coding),几乎任何难点都可用在「当前聊天框」里应对。
比如我可用让GLM-4.5帮我临时制作一个生辰八字计算器。
很多人不知道,
在ARC和Full-Stack能力的加持下,日常需求直接就可用转化为产品,不仅自己可用,而且可用分享出去。
站在用户角度来说,
大模型的「军备竞赛」发展至今,光是听说的模型已经两只手都数不过来了,ChatGPT、Gemini、Claude、Qwen、DeepSeek、GLM、Kimi…
OpenAI的ChatGPT更是给模型起了多个名字:GPT-4.1、GPT-4.5、o1-pro、o3、o3-pro、o4-mini。。。简直让人无从下手。
更重要的是,
但是很多模型都忘记了AI原本是要「服务于人」的初衷,变成了刷榜比赛,比如Meta的Llama 4的滑铁卢就鉴于刷榜丑闻而起。
据报道,
这次,智谱GLM4.5和OpenAI GPT-5「心照不宣」的都决定采用「融合大模型」路线。
说到底,
放弃刷榜和无聊的命名游戏,回归到真正追求AGI的初心。
就像智谱所说,真实体验永远比刷榜更核心。
目前,GLM-4.5的API已上线开放平台BigModel.cn,可用一键兼容Claude Code框架。 也可用上智谱清言(chatglm.cn)和Z.ai免费体验满血版。
国内终端:
据相关资料显示,
https://docs.bigmodel.cn/cn/guide/develop/claude
海外终端:
必须指出的是,
https://docs.z.ai/scenario-example/develop-tools/claude
很多人不知道,
体验地址:
简而言之,
https://chat.z.ai/
XM外汇认为:
https://chatglm.cn
总的来说,
Github仓库:
XM外汇消息:
https://github.com/zai-org/GLM-4.5
从某种意义上讲,
模型仓库:
HuggingFace:
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
简而言之,
ModelScope:
大家常常忽略的是,
https://modelscope.cn/collections/GLM-45-b8693e2a08984f
令人惊讶的是,
同时,智谱还公布了实测的52道题目及Agent轨迹,供业界验证。
XM外汇用户评价:
Agent轨迹:
简而言之,
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
但实际上,
参考资料:
https://chatglm.cn/
https://chat.z.ai/返回搜狐,查看更多