当前位置:首页 > 科技资讯 > 正文

AI面对“隐形可读”文字全面失守

人类一眼就能辨识的文字,AI却频频受挫。

来自A*STAR、NUS、NTU、清华、南开等学术机构的研究团队,最近发现了一项新奇的发现:

无论是OpenAI的GPT-5、GPT-4,还是谷歌的Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看似清晰却难以解读”的文字时,都表现得相当糟糕,几乎全面“翻车”。

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第1张

切分再组合,AI束手无策

VYU团队设计了两项实验:

1. 选取了100条四字成语,将每个汉字进行横切、竖切、斜切,再将这些碎片重新拼接。

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第2张

人类读起来毫无压力,但AI却几乎全错。

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第3张

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第4张

2. 挑选了100个八字母英文单词,将前后两半分别用红色和绿色渲染,再叠加在一起。

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第5张

对人类而言,这几乎不算什么挑战——因为我们的视觉系统对红/绿通道异常敏感,大脑能自动分离颜色,然后拼出完整的单词。

但对AI模型来说,结果却大相径庭:

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第6张

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第7张

即使是最新发布的大模型,在这些问题上也频频受挫。

无论是Gemini 2.5 Pro:

AI面对“隐形可读”文字全面失守 AI 可读文字 视觉语言模型 盲点 第8张 阿里云服务器免费服务器