当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈

主机测评网
科技资讯
2026-01-12
564

在讨论DeepSeek时，其多模态特性往往未被重视。

然而，10月20日，DeepSeek突然开源了DeepSeek-OCR。这是一个OCR（光学字符识别）模型，在OmniDocBench等权威基准上取得了SOTA（业界顶尖）的成绩。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第1张

DeepSeek为何涉足OCR领域？答案在于大语言模型的核心挑战：长上下文处理的算力限制。

论文的核心观点是：文本信息可通过光学2D映射（即渲染成图像）高效压缩，再由VLM（视觉语言模型）从图像中解压原始信息。

简而言之，将文本转换为图像形式，用更少的视觉token表示相同信息。

对此，专家AndrejKarpathy表示受启发，认为像素（pixels）可能比文本（text）更适合作为LLM输入。

他列举了四大优势：

信息压缩：引用DeepSeek-OCR论文，实现“更短的上下文窗口和更高效率”。

更通用的信息流：输入可包含“粗体、彩色文本、任意图像”。

更强的处理方式：图像支持“双向注意力”，比文本的自回归注意力更强大。

消除输入端的Tokenizer：他批评了现有分词器的问题。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第2张

本文深入解析这一构想，探讨DeepSeek如何用视觉方法处理文本。该论文可能以“一图胜千言”的模式，改变LLM的输入范式。

01 表面是OCR，核心是长上下文

在LLM领域，竞争最终往往聚焦于“更长上下文”。从几千token到百万token，这场竞赛持续不断。

根本制约来自Transformer的注意力机制。

标准全局注意力允许每个token关注所有其他token，但计算复杂度和内存占用随序列长度二次方增长。

尽管有分组注意力、多查询注意力等技术优化，但这些方法未减少token数量本身。

DeepSeek-AI团队提出根本问题：能否压缩token数量？

这就是光学压缩的起点。

视觉token和文本token不同。视觉token由图像块转换而成，一张1024*1024图像可表示为4096个视觉token。

而大小减半的图像能容纳约10000个文本token。

因此，视觉模态是文本信息的高效压缩媒介。DeepSeek-OCR验证了“光学压缩-解压”系统，探索用视觉token解压文本token的比率。

DeepSeek目前实现10倍压缩几乎无损，20倍压缩基本可用。

02 DeepEncoder，压缩的艺术

光学压缩需要新视觉编码器，能处理高分辨率输入、产生少量视觉token，且激活内存低。

DeepSeek-AI设计了DeepEncoder。

DeepEncoder 是约3.8亿参数的串联架构，形成三级处理。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第3张

第一级是80M参数的SAM-base感知器，处理高分辨率局部细节，使用窗口注意力保持低激活内存。

第二级是关键16倍压缩器(Conv 16x)，是2层卷积模块，将4096个token压缩为256个视觉token摘要。

第三级是300M参数的CLIP-large知识层，对256个token使用全局注意力，理解全局语义。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第4张

解码器 DeepSeek-3B-MoE 接收视觉token摘要，生成文本，确保上下文连贯。

DeepEncoder 的串联设计避免之前方案的问题。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第5张

实验结果：

10倍压缩率： 用64视觉token解码600-700文本token，精度96.5%。

20倍压缩率： 压缩率近20倍时，精度保持~60%。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第6张

DeepSeek-OCR所需token数随文档类型变化：演示文稿约64tokens；书籍报告约100tokens；复杂报纸启用“高达模式”，最多800tokens。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第7张

在OmniDocBench基准上，DeepSeek-OCR表现优异：Small模式用100视觉token超越GOT-OCR2.0；Gundam模式用不足800视觉token超越MinerU2.0。

单A100 GPU日处理超20万页文档；20台服务器（每台8颗A100）日处理约3300万页。

DeepSeek-OCR支持多种文档类型和约100种语言，保持版式或输出纯文本。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第8张

该方法无需额外基础设施成本，在VLM上实现新文本压缩范式。

03 窗口注意力的演变

DeepSeek方法类似早期窗口方案，如RNN的BPTT或BERT的滑动窗口，但机制已质变。

传统窗口有信息孤岛问题，但DeepSeek-OCR通过混合架构和先验知识解决。

编码器和解码器经大规模预训练，理解视觉结构、文本布局和语言规律，实现高效信息保真。

它用基于先验的感知压缩取代无知截断，保留全局视野。

04 终极愿景，模拟人类记忆遗忘

DeepSeek-OCR在论文中展露野心：模拟人类遗忘机制。

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈 DeepSeek-OCR 光学压缩长上下文视觉语言模型第9张

人类记忆分层衰减，视觉感知也有距离衰减特性。

DeepSeek-OCR的多分辨率设计可模拟这种衰减。

AI系统可分层管理记忆：近期上下文用高精度文本token或高分辨率图像处理；中期用Base模式；远期用Tiny模式高度压缩。

实践流程：将历史对话渲染为图像，用DeepEncoder压缩为视觉token，与新问题token拼接，解码器处理并生成回答。

分层记忆平衡历史要点和计算成本，通向“理论上无限上下文”。

但当前压缩是无选择性均匀压缩，未来需实现有选择性压缩，模拟人类基于注意力的遗忘。

DeepSeek-OCR验证光学压缩可行性，为AI记忆、遗忘和输入机制提供新框架。

有时忘记和压缩比记住更重要。

该方法可能统一输入范式，因为图像模态更符合人类认知。Karpathy设想所有LLM输入先渲染为图像，这可能更自然高效。

这或许是模拟人类认知、通向无限上下文的AGI记忆和输入系统新路径。

性价比vps 性价比服务器

本文由主机测评网于2026-01-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260116921.html

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈

01 表面是OCR，核心是长上下文

02 DeepEncoder，压缩的艺术

03 窗口注意力的演变

04 终极愿景，模拟人类记忆遗忘

CentOS7安装JDK1.8全攻略（解决wget命令缺失问题一步到位）

Ubuntu 22.04虚拟机磁盘扩容完全指南

DeepSeek-OCR：视觉压缩技术突破长上下文处理瓶颈

01 表面是OCR，核心是长上下文

02 DeepEncoder，压缩的艺术

03 窗口注意力的演变

04 终极愿景，模拟人类记忆遗忘

CentOS7安装JDK1.8全攻略（解决wget命令缺失问题一步到位）

Ubuntu 22.04虚拟机磁盘扩容完全指南

相关文章