当前位置：首页 > 科技资讯 > 正文

智谱Glyph登场：视觉Token挑战长文本处理极限

这不巧了，智谱和DeepSeek，再次狭路相逢。

太卷了，DeepSeek-OCR发布不过一天，智谱就开源了自家的视觉Token方案——Glyph。

智谱Glyph登场：视觉Token挑战长文本处理极限视觉Token Glyph 长上下文 LLM 第1张

既然是竞争对手，当然得请卡帕西来点评一下：

或许你也会对我们的工作感兴趣。

智谱Glyph登场：视觉Token挑战长文本处理极限视觉Token Glyph 长上下文 LLM 第2张

发论文就发论文，怎么还争上宠了。（doge）

网友调侃be like：AI界也有自己的霸总爱情片。

智谱Glyph登场：视觉Token挑战长文本处理极限视觉Token Glyph 长上下文 LLM 第3张

智谱也做视觉压缩

没错，与DeepSeek-OCR一样，智谱这篇论文的目标同样是破解当下LLM上下文冗长的难题。

随着LLM能力一路狂飙，用户对长上下文的需求也越来越迫切。

不论是长文档分析、代码审查，还是多轮对话，模型需要足够稳定的「工作记忆」才能靠谱地执行任务。

但扩充上下文是个吃力不讨好的工作。

举个例子：如果把上下文从50K扩到100K，算力的消耗大约会变成原来的四倍。

原因在于，更多的Token意味着模型需要记住更多的激活值、缓存、注意力权重，这些都是靠真金白银堆出来的。

如果能实实在在地提升性能，多花点钱也认了。

可最让人心痛的是，砸了重金扩上下文，模型还不一定更聪明。

IBM的研究就指出，光靠“多塞 Token”并不能保证模型表现线性提升。

相反，当输入太长、信息太杂时，模型反而可能陷入噪声干扰和信息过载。

关于这类问题，目前有三种主流解决方案：

第一类，扩展位置编码。

在Transformer结构里，模型并不知道输入的先后顺序，因此需要位置编码来告诉模型Token的顺序。

扩展位置编码的做法，就是把原有的位置编码区间直接向外延伸。

第二类，改造注意力机制。

通过稀疏注意力、线性注意力等技巧提高每个Token的处理效率。

第三类，检索增强RAG路线。

通过外部检索先挑重点、再喂给模型，输入变短，推理轻快。

为了解决这个问题，研究团队提出了一种新范式——Glyph。

图像能承载的信息密度远高出纯文本，仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

第一阶段：持续预训练（Continual Pre-training）

目标是将模型的长上下文理解能力从文字迁移到视觉。

第二阶段：LLM驱动的渲染搜索（LLM-driven Rendering Search）

研究团队引入遗传搜索算法，自动探索最优的渲染参数。

第三阶段：后训练（Post-training）

进行有监督微调和强化学习，让模型更聪明、更稳。

智谱Glyph登场：视觉Token挑战长文本处理极限视觉Token Glyph 长上下文 LLM 第4张

本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543186.html