当前位置：首页 > 科技资讯 > 正文

Glyph框架：视觉压缩革新长上下文建模范式

主机测评网
科技资讯
2026-01-12
651

在当今大模型领域，长上下文（Long Context）建模正崛起为前沿研究热点，它是推动大语言模型（LLM）迈向实际应用的核心驱动力。

从理论层面看，具备长上下文能力的LLM不仅能实现更深入的语义解析，还可大幅提升多步推理与长期记忆功能，从而模拟人类“全局阅读、整体分析”的认知模式。

然而，当上下文窗口扩展至百万token级别时，计算与内存开销急剧增加，制约了长上下文LLM的落地应用。

为突破这一瓶颈，清华大学与智谱（Z.ai）的研究团队另辟蹊径，放弃基于token的序列扩展方法，从「视觉上下文扩展」创新视角推出了Glyph框架，即将长篇文本转化为图像，并借助视觉语言模型（VLM）进行处理。

Glyph框架：视觉压缩革新长上下文建模范式长上下文建模视觉语言模型文本压缩 Glyph框架第1张

论文：https://arxiv.org/pdf/2510.17800
GitHub：https://github.com/thu-coai/Glyph

实验数据显示，通过持续预训练、LLM驱动的遗传式渲染搜索以及针对性后训练优化，Glyph在维持与先进LLM相近精度的同时，达成了3-4倍的token压缩，显著提升了内存效率、训练与推理速度。

以经典长篇小说《简·爱》（约240k文本token）为例：

传统128K上下文LLM难以回答需全局考量的问题（如“简离开桑菲尔德府后陷入困境时，谁提供了帮助？”）
相比之下，Glyph将全书内容压缩为紧凑图像（约80k视觉token），使128k上下文的VLM能够准确回应上述问题。

Glyph框架：视觉压缩革新长上下文建模范式长上下文建模视觉语言模型文本压缩 Glyph框架第2张

图｜（上）两种长上下文任务范式对比：传统方法直接将纯文本输入语言模型，而Glyph将文本渲染为紧凑图像，实现显著的输入token压缩；（下）在LongBench和MRCR测试集上，Glyph展现出具有竞争力的性能，同时在128K token输入规模下，相较其文本基准模型实现了显著的压缩率和推理加速。

更进一步，在极限压缩场景下，一个拥有128K上下文窗口的VLM可扩展至处理百万级token的文本任务。

研究团队指出，提升token信息密度为长上下文建模开辟了新颖路径，与现有基于注意力的方法相互补充，且探索空间广阔。

从上下文工程视角看，这种方法提供了优化上下文信息表征与管理的新思路。未来，LLM或将突破当前上下文长度限制，将输入token从百万级推向千万级。

研究方法

Glyph的核心宗旨是让模型以“视觉化”方式理解超长文本。通过将文本渲染为图像，模型能在有限token数量内吸纳更丰富上下文信息，实现高效文本压缩。

Glyph框架：视觉压缩革新长上下文建模范式长上下文建模视觉语言模型文本压缩 Glyph框架第3张

整体框架涵盖三个关键阶段：

1.持续预训练

研究团队首先将海量长文本数据渲染为多样视觉风格，包括文档布局、网页结构、代码展示等形式，以模拟真实世界长文本场景。

在此基础上，他们设计多种任务，如OCR识别任务、图文交错建模任务与视觉补全任务，使模型同步学习文字视觉形态与语义内涵。这一阶段训练助力模型建立视觉与语言间的跨模态语义对齐能力。

2.LLM驱动渲染搜索

在视觉压缩过程中，渲染配置（如字体、分辨率、排版布局）直接影响模型感知效果与任务性能。为在压缩率与理解能力间取得最优平衡，他们提出了一种由LLM驱动的遗传搜索算法。在该框架中，他们在验证集上自动评估不同渲染方案性能，由LLM分析优劣并生成新候选配置。通过多轮迭代，Glyph能逐步收敛到语义保持与压缩效率最优的渲染策略。

3.后训练阶段

在找到最优渲染配置后，他们对模型进行监督微调（SFT）与强化学习优化（使用GRPO算法）。此外，他们引入OCR辅助任务，进一步强化模型文字识别与细节解析能力。