然而，人类秒懂，AI崩溃：一个轻松测试，就让GPT-5、Gemini等顶级模型集体“翻车”

发表评论

A+

所属分类：科技

摘要

不管是OpenAI的GPT-5、GPT-4o，还是谷歌Gemini、AnthropicClaude，甚至国内的Qwen、LLaVA，在面对一些“看得见但读不懂”的文字时，全都表现极差，直接“翻车”。 VY…” />

据相关资料显示，

VYU团队投稿

量子位 | 公众号 QbitAI

简要回顾一下，

人类一眼就能看懂的文字，AI居然全军覆没。

其实，

来自A*STAR、NUS、NTU、清华、南开等机构的研究团队，最近有个新发现：

XM外汇消息：

不管是OpenAI的GPT-5、GPT-4o，还是谷歌Gemini、Anthropic Claude，甚至国内的Qwen、LLaVA，在面对一些“看得见但读不懂”的文字时，全都表现极差，直接“翻车”。

综上所述，

先切再叠，AI束手无策

据相关资料显示，

VYU团队设计了两个小实验：

1、选取了100条四字成语，把每个汉字横切、竖切、斜切，再把碎片重新拼接。

简而言之，

人类读起来毫无压力，AI却几乎全错。

不可忽视的是，

展开全文

XM外汇消息：

2、挑选了100个八字母英文单词，把前后两半分别用红色和绿色渲染，再叠加在一起。

根据公开数据显示，

对人类来说，这几乎不构成挑战——考虑到本 XM外汇开户平台的视觉系统对红/绿通道异常敏感，大脑能自动分离颜色，然后拼出完整的单词。

不可忽视的是，

但对AI模型来说，结果却完全不同：

即使是最新发布的大模型，在这些难点上也屡屡碰壁。

说出来你可能不信，

无论是Gemini 2.5 Pro:

综上所述，

还是Kimi 2（Switch to 1.5 for visual understanding）：

容易被误解的是，

（PS：Kimi 2最终推测的答案是hardline）

很多人不知道，

又或者Qwen3-Max-Preview：

据报道，

全都得不到正确的结果。

事实上，

AI不懂符号分割与组合

对该现象进行分析，VYU团队认为，根本原因在于AI靠模式匹配，不懂文字结构。

事实上，

人类之于是能“读懂”，是考虑到本平台依赖结构先验——知道汉字由偏旁部首组成，知道英文是按字母组合的。

从某种意义上讲，

于是，只要文字稍作扰动（但人类依旧能看懂），AI就会彻底崩溃。

总的来说，

这个难点之于是值得研究，是考虑到它关系到AI落地的核心挑战：

在历史文献与科学笔记整理中，AI无法像人类一样从残缺文字中恢复含义。

综上所述，
在可靠场景里，攻击者甚至可用利用这种“盲点”绕过AI审查。

说出来你可能不信，

在历史文献与科学笔记整理中，AI无法像人类一样从残缺文字中恢复含义。

有分析指出，

在可靠场景里，攻击者甚至可用利用这种“盲点”绕过AI审查。

尽管如此，

VYU团队认为，要想让AI拥有类似人类的韧性，必须重新思考VLMs如何整合视觉与文本——返回搜狐，查看更多

发表评论取消回复