当前位置:首页 > 科技资讯 > 正文

智谱Glyph登场:视觉Token挑战长文本处理极限

这不巧了,智谱和DeepSeek,再次狭路相逢。

太卷了,DeepSeek-OCR发布不过一天,智谱就开源了自家的视觉Token方案——Glyph

智谱Glyph登场:视觉Token挑战长文本处理极限 视觉Token Glyph 长上下文 LLM 第1张

既然是竞争对手,当然得请卡帕西来点评一下:

或许你也会对我们的工作感兴趣。

智谱Glyph登场:视觉Token挑战长文本处理极限 视觉Token Glyph 长上下文 LLM 第2张

发论文就发论文,怎么还争上宠了。(doge)

网友调侃be like:AI界也有自己的霸总爱情片。

智谱Glyph登场:视觉Token挑战长文本处理极限 视觉Token Glyph 长上下文 LLM 第3张

智谱也做视觉压缩

没错,与DeepSeek-OCR一样,智谱这篇论文的目标同样是破解当下LLM上下文冗长的难题。

激增的上下文

随着LLM能力一路狂飙,用户对长上下文的需求也越来越迫切。

不论是长文档分析、代码审查,还是多轮对话,模型需要足够稳定的「工作记忆」才能靠谱地执行任务。

但扩充上下文是个吃力不讨好的工作。

举个例子:如果把上下文从50K扩到100K,算力的消耗大约会变成原来的四倍。

原因在于,更多的Token意味着模型需要记住更多的激活值、缓存、注意力权重,这些都是靠真金白银堆出来的。

如果能实实在在地提升性能,多花点钱也认了。

可最让人心痛的是,砸了重金扩上下文,模型还不一定更聪明

IBM的研究就指出,光靠“多塞 Token”并不能保证模型表现线性提升。

相反,当输入太长、信息太杂时,模型反而可能陷入噪声干扰和信息过载。

关于这类问题,目前有三种主流解决方案:

第一类,扩展位置编码。

在Transformer结构里,模型并不知道输入的先后顺序,因此需要位置编码来告诉模型Token的顺序。

扩展位置编码的做法,就是把原有的位置编码区间直接向外延伸。

第二类,改造注意力机制。

通过稀疏注意力、线性注意力等技巧提高每个Token的处理效率。

第三类,检索增强RAG路线。

通过外部检索先挑重点、再喂给模型,输入变短,推理轻快。

看「图」说话

为了解决这个问题,研究团队提出了一种新范式——Glyph

图像能承载的信息密度远高出纯文本,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

Glyph的奥秘

第一阶段:持续预训练(Continual Pre-training)

目标是将模型的长上下文理解能力从文字迁移到视觉。

第二阶段:LLM驱动的渲染搜索(LLM-driven Rendering Search)

研究团队引入遗传搜索算法,自动探索最优的渲染参数。

第三阶段:后训练(Post-training)

进行有监督微调和强化学习,让模型更聪明、更稳。

狂砍75%上下文

智谱Glyph登场:视觉Token挑战长文本处理极限 视觉Token Glyph 长上下文 LLM 第4张

论文作者

⛎清华博士Jiale Cheng⛎

智谱Glyph登场:视觉Token挑战长文本处理极限 视觉Token Glyph 长上下文 LLM 第5张