在讨论DeepSeek时,其多模态特性往往未被重视。
然而,10月20日,DeepSeek突然开源了DeepSeek-OCR。这是一个OCR(光学字符识别)模型,在OmniDocBench等权威基准上取得了SOTA(业界顶尖)的成绩。
DeepSeek为何涉足OCR领域?答案在于大语言模型的核心挑战:长上下文处理的算力限制。
论文的核心观点是:文本信息可通过光学2D映射(即渲染成图像)高效压缩,再由VLM(视觉语言模型)从图像中解压原始信息。
简而言之,将文本转换为图像形式,用更少的视觉token表示相同信息。
对此,专家AndrejKarpathy表示受启发,认为像素(pixels)可能比文本(text)更适合作为LLM输入。
他列举了四大优势:
信息压缩:引用DeepSeek-OCR论文,实现“更短的上下文窗口和更高效率”。
更通用的信息流:输入可包含“粗体、彩色文本、任意图像”。
更强的处理方式:图像支持“双向注意力”,比文本的自回归注意力更强大。
消除输入端的Tokenizer:他批评了现有分词器的问题。
本文深入解析这一构想,探讨DeepSeek如何用视觉方法处理文本。该论文可能以“一图胜千言”的模式,改变LLM的输入范式。
在LLM领域,竞争最终往往聚焦于“更长上下文”。从几千token到百万token,这场竞赛持续不断。
根本制约来自Transformer的注意力机制。
标准全局注意力允许每个token关注所有其他token,但计算复杂度和内存占用随序列长度二次方增长。
尽管有分组注意力、多查询注意力等技术优化,但这些方法未减少token数量本身。
DeepSeek-AI团队提出根本问题:能否压缩token数量?
这就是光学压缩的起点。
视觉token和文本token不同。视觉token由图像块转换而成,一张1024*1024图像可表示为4096个视觉token。
而大小减半的图像能容纳约10000个文本token。
因此,视觉模态是文本信息的高效压缩媒介。DeepSeek-OCR验证了“光学压缩-解压”系统,探索用视觉token解压文本token的比率。
DeepSeek目前实现10倍压缩几乎无损,20倍压缩基本可用。
光学压缩需要新视觉编码器,能处理高分辨率输入、产生少量视觉token,且激活内存低。
DeepSeek-AI设计了DeepEncoder。
DeepEncoder 是约3.8亿参数的串联架构,形成三级处理。
第一级是80M参数的SAM-base感知器,处理高分辨率局部细节,使用窗口注意力保持低激活内存。
第二级是关键16倍压缩器(Conv 16x),是2层卷积模块,将4096个token压缩为256个视觉token摘要。
第三级是300M参数的CLIP-large知识层,对256个token使用全局注意力,理解全局语义。
解码器 DeepSeek-3B-MoE 接收视觉token摘要,生成文本,确保上下文连贯。
DeepEncoder 的串联设计避免之前方案的问题。
实验结果:
10倍压缩率: 用64视觉token解码600-700文本token,精度96.5%。
20倍压缩率: 压缩率近20倍时,精度保持~60%。
DeepSeek-OCR所需token数随文档类型变化:演示文稿约64tokens;书籍报告约100tokens;复杂报纸启用“高达模式”,最多800tokens。
在OmniDocBench基准上,DeepSeek-OCR表现优异:Small模式用100视觉token超越GOT-OCR2.0;Gundam模式用不足800视觉token超越MinerU2.0。
单A100 GPU日处理超20万页文档;20台服务器(每台8颗A100)日处理约3300万页。
DeepSeek-OCR支持多种文档类型和约100种语言,保持版式或输出纯文本。
该方法无需额外基础设施成本,在VLM上实现新文本压缩范式。
DeepSeek方法类似早期窗口方案,如RNN的BPTT或BERT的滑动窗口,但机制已质变。
传统窗口有信息孤岛问题,但DeepSeek-OCR通过混合架构和先验知识解决。
编码器和解码器经大规模预训练,理解视觉结构、文本布局和语言规律,实现高效信息保真。
它用基于先验的感知压缩取代无知截断,保留全局视野。
DeepSeek-OCR在论文中展露野心:模拟人类遗忘机制。
人类记忆分层衰减,视觉感知也有距离衰减特性。
DeepSeek-OCR的多分辨率设计可模拟这种衰减。
AI系统可分层管理记忆:近期上下文用高精度文本token或高分辨率图像处理;中期用Base模式;远期用Tiny模式高度压缩。
实践流程:将历史对话渲染为图像,用DeepEncoder压缩为视觉token,与新问题token拼接,解码器处理并生成回答。
分层记忆平衡历史要点和计算成本,通向“理论上无限上下文”。
但当前压缩是无选择性均匀压缩,未来需实现有选择性压缩,模拟人类基于注意力的遗忘。
DeepSeek-OCR验证光学压缩可行性,为AI记忆、遗忘和输入机制提供新框架。
有时忘记和压缩比记住更重要。
该方法可能统一输入范式,因为图像模态更符合人类认知。Karpathy设想所有LLM输入先渲染为图像,这可能更自然高效。
这或许是模拟人类认知、通向无限上下文的AGI记忆和输入系统新路径。
本文由主机测评网于2026-01-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116921.html