这不巧了,智谱和DeepSeek,再次狭路相逢。
太卷了,DeepSeek-OCR发布不过一天,智谱就开源了自家的视觉Token方案——Glyph。
既然是竞争对手,当然得请卡帕西来点评一下:
或许你也会对我们的工作感兴趣。
发论文就发论文,怎么还争上宠了。(doge)
网友调侃be like:AI界也有自己的霸总爱情片。
没错,与DeepSeek-OCR一样,智谱这篇论文的目标同样是破解当下LLM上下文冗长的难题。
随着LLM能力一路狂飙,用户对长上下文的需求也越来越迫切。
不论是长文档分析、代码审查,还是多轮对话,模型需要足够稳定的「工作记忆」才能靠谱地执行任务。
但扩充上下文是个吃力不讨好的工作。
举个例子:如果把上下文从50K扩到100K,算力的消耗大约会变成原来的四倍。
原因在于,更多的Token意味着模型需要记住更多的激活值、缓存、注意力权重,这些都是靠真金白银堆出来的。
如果能实实在在地提升性能,多花点钱也认了。
可最让人心痛的是,砸了重金扩上下文,模型还不一定更聪明。
IBM的研究就指出,光靠“多塞 Token”并不能保证模型表现线性提升。
相反,当输入太长、信息太杂时,模型反而可能陷入噪声干扰和信息过载。
关于这类问题,目前有三种主流解决方案:
第一类,扩展位置编码。
在Transformer结构里,模型并不知道输入的先后顺序,因此需要位置编码来告诉模型Token的顺序。
扩展位置编码的做法,就是把原有的位置编码区间直接向外延伸。
第二类,改造注意力机制。
通过稀疏注意力、线性注意力等技巧提高每个Token的处理效率。
第三类,检索增强RAG路线。
通过外部检索先挑重点、再喂给模型,输入变短,推理轻快。
为了解决这个问题,研究团队提出了一种新范式——Glyph。
图像能承载的信息密度远高出纯文本,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。
第一阶段:持续预训练(Continual Pre-training)
目标是将模型的长上下文理解能力从文字迁移到视觉。
第二阶段:LLM驱动的渲染搜索(LLM-driven Rendering Search)
研究团队引入遗传搜索算法,自动探索最优的渲染参数。
第三阶段:后训练(Post-training)
进行有监督微调和强化学习,让模型更聪明、更稳。
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543186.html