当前位置：首页 > 科技资讯 > 正文

AI面对“隐形可读”文字全面失守

人类一眼就能辨识的文字，AI却频频受挫。

来自A*STAR、NUS、NTU、清华、南开等学术机构的研究团队，最近发现了一项新奇的发现：

无论是OpenAI的GPT-5、GPT-4，还是谷歌的Gemini、Anthropic Claude，甚至国内的Qwen、LLaVA，在面对一些“看似清晰却难以解读”的文字时，都表现得相当糟糕，几乎全面“翻车”。

AI面对“隐形可读”文字全面失守 AI 可读文字视觉语言模型盲点第1张

切分再组合，AI束手无策

VYU团队设计了两项实验：

1. 选取了100条四字成语，将每个汉字进行横切、竖切、斜切，再将这些碎片重新拼接。

AI面对“隐形可读”文字全面失守 AI 可读文字视觉语言模型盲点第2张

人类读起来毫无压力，但AI却几乎全错。

AI面对“隐形可读”文字全面失守 AI 可读文字视觉语言模型盲点第3张

AI面对“隐形可读”文字全面失守 AI 可读文字视觉语言模型盲点第4张

2. 挑选了100个八字母英文单词，将前后两半分别用红色和绿色渲染，再叠加在一起。

AI面对“隐形可读”文字全面失守 AI 可读文字视觉语言模型盲点第5张

对人类而言，这几乎不算什么挑战——因为我们的视觉系统对红/绿通道异常敏感，大脑能自动分离颜色，然后拼出完整的单词。

但对AI模型来说，结果却大相径庭：

AI面对“隐形可读”文字全面失守 AI 可读文字视觉语言模型盲点第6张

AI面对“隐形可读”文字全面失守 AI 可读文字视觉语言模型盲点第7张

即使是最新发布的大模型，在这些问题上也频频受挫。

无论是Gemini 2.5 Pro:

本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441045.html