当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈

在讨论DeepSeek时,其多模态特性往往未被重视。

然而,10月20日,DeepSeek突然开源了DeepSeek-OCR。这是一个OCR(光学字符识别)模型,在OmniDocBench等权威基准上取得了SOTA(业界顶尖)的成绩。

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第1张

DeepSeek为何涉足OCR领域?答案在于大语言模型的核心挑战:长上下文处理的算力限制。

论文的核心观点是:文本信息可通过光学2D映射(即渲染成图像)高效压缩,再由VLM(视觉语言模型)从图像中解压原始信息。

简而言之,将文本转换为图像形式,用更少的视觉token表示相同信息。

对此,专家AndrejKarpathy表示受启发,认为像素(pixels)可能比文本(text)更适合作为LLM输入。

他列举了四大优势:

信息压缩:引用DeepSeek-OCR论文,实现“更短的上下文窗口和更高效率”。

更通用的信息流:输入可包含“粗体、彩色文本、任意图像”。

更强的处理方式:图像支持“双向注意力”,比文本的自回归注意力更强大。

消除输入端的Tokenizer:他批评了现有分词器的问题。

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第2张

本文深入解析这一构想,探讨DeepSeek如何用视觉方法处理文本。该论文可能以“一图胜千言”的模式,改变LLM的输入范式。

01 表面是OCR,核心是长上下文

在LLM领域,竞争最终往往聚焦于“更长上下文”。从几千token到百万token,这场竞赛持续不断。

根本制约来自Transformer的注意力机制

标准全局注意力允许每个token关注所有其他token,但计算复杂度和内存占用随序列长度二次方增长。

尽管有分组注意力、多查询注意力等技术优化,但这些方法未减少token数量本身

DeepSeek-AI团队提出根本问题:能否压缩token数量?

这就是光学压缩的起点。

视觉token和文本token不同。视觉token由图像块转换而成,一张1024*1024图像可表示为4096个视觉token。

而大小减半的图像能容纳约10000个文本token。

因此,视觉模态是文本信息的高效压缩媒介。DeepSeek-OCR验证了“光学压缩-解压”系统,探索用视觉token解压文本token的比率。

DeepSeek目前实现10倍压缩几乎无损,20倍压缩基本可用。

02 DeepEncoder,压缩的艺术

光学压缩需要新视觉编码器,能处理高分辨率输入、产生少量视觉token,且激活内存低。

DeepSeek-AI设计了DeepEncoder

DeepEncoder 是约3.8亿参数的串联架构,形成三级处理。

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第3张

第一级是80M参数的SAM-base感知器,处理高分辨率局部细节,使用窗口注意力保持低激活内存。

第二级是关键16倍压缩器(Conv 16x),是2层卷积模块,将4096个token压缩为256个视觉token摘要。

第三级是300M参数的CLIP-large知识层,对256个token使用全局注意力,理解全局语义。

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第4张

解码器 DeepSeek-3B-MoE 接收视觉token摘要,生成文本,确保上下文连贯。

DeepEncoder 的串联设计避免之前方案的问题。

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第5张

实验结果:

10倍压缩率: 用64视觉token解码600-700文本token,精度96.5%

20倍压缩率: 压缩率近20倍时,精度保持~60%

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第6张

DeepSeek-OCR所需token数随文档类型变化:演示文稿约64tokens;书籍报告约100tokens;复杂报纸启用“高达模式”,最多800tokens。

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第7张

在OmniDocBench基准上,DeepSeek-OCR表现优异:Small模式用100视觉token超越GOT-OCR2.0;Gundam模式用不足800视觉token超越MinerU2.0。

单A100 GPU日处理超20万页文档;20台服务器(每台8颗A100)日处理约3300万页。

DeepSeek-OCR支持多种文档类型和约100种语言,保持版式或输出纯文本。

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第8张

该方法无需额外基础设施成本,在VLM上实现新文本压缩范式。

03 窗口注意力的演变

DeepSeek方法类似早期窗口方案,如RNN的BPTT或BERT的滑动窗口,但机制已质变。

传统窗口有信息孤岛问题,但DeepSeek-OCR通过混合架构和先验知识解决。

编码器和解码器经大规模预训练,理解视觉结构、文本布局和语言规律,实现高效信息保真。

它用基于先验的感知压缩取代无知截断,保留全局视野。

04 终极愿景,模拟人类记忆遗忘

DeepSeek-OCR在论文中展露野心:模拟人类遗忘机制

DeepSeek-OCR:视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR  光学压缩 长上下文 视觉语言模型 第9张

人类记忆分层衰减,视觉感知也有距离衰减特性。

DeepSeek-OCR的多分辨率设计可模拟这种衰减。

AI系统可分层管理记忆:近期上下文用高精度文本token或高分辨率图像处理;中期用Base模式;远期用Tiny模式高度压缩。

实践流程:将历史对话渲染为图像,用DeepEncoder压缩为视觉token,与新问题token拼接,解码器处理并生成回答。

分层记忆平衡历史要点和计算成本,通向“理论上无限上下文”。

但当前压缩是无选择性均匀压缩,未来需实现有选择性压缩,模拟人类基于注意力的遗忘。

DeepSeek-OCR验证光学压缩可行性,为AI记忆、遗忘和输入机制提供新框架。

有时忘记和压缩比记住更重要。

该方法可能统一输入范式,因为图像模态更符合人类认知。Karpathy设想所有LLM输入先渲染为图像,这可能更自然高效。

这或许是模拟人类认知、通向无限上下文的AGI记忆和输入系统新路径。