当前位置:首页 > 科技资讯 > 正文

Glyph框架:视觉压缩革新长上下文建模范式

在当今大模型领域,长上下文(Long Context)建模正崛起为前沿研究热点,它是推动大语言模型(LLM)迈向实际应用的核心驱动力。

从理论层面看,具备长上下文能力的LLM不仅能实现更深入的语义解析,还可大幅提升多步推理与长期记忆功能,从而模拟人类“全局阅读、整体分析”的认知模式

然而,当上下文窗口扩展至百万token级别时,计算与内存开销急剧增加,制约了长上下文LLM的落地应用

为突破这一瓶颈,清华大学与智谱(Z.ai)的研究团队另辟蹊径,放弃基于token的序列扩展方法,从「视觉上下文扩展」创新视角推出了Glyph框架,即将长篇文本转化为图像,并借助视觉语言模型(VLM)进行处理。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第1张

  • 论文:https://arxiv.org/pdf/2510.17800
  • GitHub:https://github.com/thu-coai/Glyph

实验数据显示,通过持续预训练、LLM驱动的遗传式渲染搜索以及针对性后训练优化,Glyph在维持与先进LLM相近精度的同时,达成了3-4倍的token压缩,显著提升了内存效率、训练与推理速度

以经典长篇小说《简·爱》(约240k文本token)为例:

  • 传统128K上下文LLM难以回答需全局考量的问题(如“简离开桑菲尔德府后陷入困境时,谁提供了帮助?”)
  • 相比之下,Glyph将全书内容压缩为紧凑图像(约80k视觉token),使128k上下文的VLM能够准确回应上述问题。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第2张

图|(上)两种长上下文任务范式对比:传统方法直接将纯文本输入语言模型,而Glyph将文本渲染为紧凑图像,实现显著的输入token压缩;(下)在LongBench和MRCR测试集上,Glyph展现出具有竞争力的性能,同时在128K token输入规模下,相较其文本基准模型实现了显著的压缩率和推理加速。

更进一步,在极限压缩场景下,一个拥有128K上下文窗口的VLM可扩展至处理百万级token的文本任务

研究团队指出,提升token信息密度为长上下文建模开辟了新颖路径,与现有基于注意力的方法相互补充,且探索空间广阔。

从上下文工程视角看,这种方法提供了优化上下文信息表征与管理的新思路。未来,LLM或将突破当前上下文长度限制,将输入token从百万级推向千万级

研究方法

Glyph的核心宗旨是让模型以“视觉化”方式理解超长文本。通过将文本渲染为图像,模型能在有限token数量内吸纳更丰富上下文信息,实现高效文本压缩。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第3张

整体框架涵盖三个关键阶段:

1.持续预训练

研究团队首先将海量长文本数据渲染为多样视觉风格,包括文档布局、网页结构、代码展示等形式,以模拟真实世界长文本场景。

在此基础上,他们设计多种任务,如OCR识别任务、图文交错建模任务与视觉补全任务,使模型同步学习文字视觉形态与语义内涵。这一阶段训练助力模型建立视觉与语言间的跨模态语义对齐能力。

2.LLM驱动渲染搜索

在视觉压缩过程中,渲染配置(如字体、分辨率、排版布局)直接影响模型感知效果与任务性能。为在压缩率与理解能力间取得最优平衡,他们提出了一种由LLM驱动的遗传搜索算法。在该框架中,他们在验证集上自动评估不同渲染方案性能,由LLM分析优劣并生成新候选配置。通过多轮迭代,Glyph能逐步收敛到语义保持与压缩效率最优的渲染策略。

3.后训练阶段

在找到最优渲染配置后,他们对模型进行监督微调(SFT)与强化学习优化(使用GRPO算法)。此外,他们引入OCR辅助任务,进一步强化模型文字识别与细节解析能力。

效果评估

研究团队在多个长上下文基准上系统评估了Glyph的效果。如下:

1.在LongBench与MRCR上,Glyph实现了平均3–4倍的输入压缩率,同时保持与Qwen3-8B、GLM-4-9B-Chat-1M等主流模型相当的精度。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第4张

图|Glyph与基线模型在不同上下文窗口下的性能对比,表明Glyph采用显著缩短的上下文窗口即可达到与更长上下文相当的性能。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第5张

表|Glyph与主流LLM在LongBench上的性能对比(%)。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第6张

表|模型在MRCR基准测试4-needle与8-needle子任务上的性能对比(%),在多数设置下位于前两名,同时保持约3倍压缩率。

2.相比文本基础模型,推理与训练速度分别提升4×和2×,并且随着上下文长度增加,推理速度优势更加明显。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第7张

图|在预填充、解码和训练过程中,Glyph相对于文本骨干模型在不同序列长度下的加速比。

3.在极端压缩条件下(8×压缩比),Glyph有潜力利用128k上下文长度处理百万级上下文任务。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第8张

表|在不同needle数量下,128K-1M上下文长度下平均MRCR性能(%)。

4.在MMLongBench-Doc上,Glyph在文档理解任务上显著优于原始视觉语言基线,展现了跨模态泛化能力。

Glyph框架:视觉压缩革新长上下文建模范式 长上下文建模 视觉语言模型 文本压缩 Glyph框架 第9张

表|MMLongBench-Doc测试结果(%)。SP、CP、UA和Acc分别表示单页准确率、跨页准确率、无法回答率和总体准确率。

局限与未来展望

当然,Glyph框架也存在一些局限性。如下:

1.对渲染参数高度敏感

该方法依赖于将文本输入渲染成图像,这使得最终性能可能受分辨率、字体和间距等渲染配置影响。尽管搜索过程能找到下游任务表现良好的配置,但如何使模型在各种渲染设置下更具鲁棒性仍待解决。

2.OCR保真度需进一步提升

UUID识别对当前VLM而言仍具挑战性,即使是SOTA模型Gemini-2.5-Pro也常无法准确重现。虽然这对多数任务影响有限,但提高OCR保真度可提升Glyph性能上限。

3.评测任务多样性不足

该工作涉及的基准测试主要侧重长上下文理解,未完全覆盖现实应用的多样性,如代理任务或推理密集型任务。同时,与文本模型相比,视觉-文本模型在跨任务泛化方面往往较差。扩展评估和训练范围以涵盖更广泛任务,将有助于更好评估和改进Glyph的鲁棒性与通用性。

尽管如此,研究团队认为,他们提出的「视觉-文本压缩」范式可在未来研究中进一步拓展,包括以下方向

首先,一个有前景的途径是训练自适应渲染模型,而非使用固定渲染策略,这些模型根据任务类型或用户查询进行条件调整,生成平衡压缩和性能的定制可视化。

其次,增强视觉编码器对细粒度文本识别的能力以及与语言表征的对齐,可提高跨任务鲁棒性和可迁移性。

再者,通过知识蒸馏或跨模态监督等方式,改进视觉-文本模型与纯文本模型之间的对齐,可缩小泛化性能差距。

最后,将这一方法扩展到更广泛应用,如能够管理长期对话或代理上下文的记忆系统,以及可利用结构化视觉布局进行推理和检索的任务。