DeepSeek开源DeepSeek-OCR 2：自研DeepEncoder V2架构，实现类人眼逻辑的深度文档解析

主机测评网
科技资讯
2026-04-04
1293

DeepSeek开源DeepSeek-OCR 2：自研DeepEncoder V2架构，实现类人眼逻辑的深度文档解析 DeepSeek-OCR 2 视觉语言模型 DeepEncoder V2 文档识别技术开源AI模型第1张

▲头图由AI生成

智东西1月27日报道，AI巨头DeepSeek近日正式宣布开源其专为OCR（光学字符识别）场景打造的深度学习模型——DeepSeek-OCR 2，并同步公开了详细的技术报告。作为去年原版模型的重大升级，DeepSeek-OCR 2引入了创新的解码机制，使其观察图片与阅读文件的逻辑更接近人类的思维顺序，而非传统机械式的线性扫描。

以往的OCR模型通常遵循从左上到右下的固定地毯式扫描路径，而DeepSeek-OCR 2具备了结构理解能力。通过对文档全局结构的感知，模型能够按逻辑分步骤读取内容，这种跨越式的视觉理解模式，显著提升了模型在处理复杂页面布局、高难度数学公式以及多行表格时的准确度。

在权威的文档理解评测基准 OmniDocBench v1.5 中，DeepSeek-OCR 2 取得了 91.09% 的优异成绩。在保持训练数据与编码器基础不变的情况下，其性能较初代模型提升了 3.73%。在端到端OCR模型阵营中，这一表现已稳居 SOTA（行业最高水平），仅略微次于百度 PaddleOCR-VL 的管线化处理表现。

DeepSeek开源DeepSeek-OCR 2：自研DeepEncoder V2架构，实现类人眼逻辑的深度文档解析 DeepSeek-OCR 2 视觉语言模型 DeepEncoder V2 文档识别技术开源AI模型第2张

此外，在同等视觉 Token 预算的测试下，DeepSeek-OCR 2 的文档解析编辑距离表现甚至优于 Gemini-3 Pro。这有力证明了该模型在维持顶尖性能的同时，拥有极高的视觉信息压缩效率，能以更少的资源消耗达成更精准的解析效果。

DeepSeek-OCR 2 的发布展现了双重行业价值：它既是 VLM（视觉语言模型）新型架构的一次先锋式探索，也是一款能够生成高质量预训练数据的实战工具，可有效助力大语言模型的进化过程。

论文链接： https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

开源地址： https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01. 破解复杂文件结构难题：全局观察后的“因果阅读”

从底层设计来看，DeepSeek-OCR 2 延续了编码器-解码器的经典架构。编码器负责将图像信息转化为离散的视觉 Token，而解码器则结合这些 Token 与文本指令生成最终结果。其核心革新在于：DeepSeek 推出了 DeepEncoder V2，通过引入因果推理机制，将原本基于 CLIP 的编码器升级为基于大模型（LLM）逻辑的编码器。

DeepSeek开源DeepSeek-OCR 2：自研DeepEncoder V2架构，实现类人眼逻辑的深度文档解析 DeepSeek-OCR 2 视觉语言模型 DeepEncoder V2 文档识别技术开源AI模型第3张

DeepEncoder V2 旨在解决传统模型在建模空间关系时的局限性——即线性顺序往往与文档真实的语义布局不匹配。为了突破这一瓶颈，该模型采用了高效的视觉 Tokenizer，通过窗口注意力机制实现了约 16 倍的 Token 压缩，在降低计算开销的同时保留了丰富的视觉细节。

最引人注目的是，它摒弃了依赖位置编码规定顺序的传统方法，转而采用 因果流查询（Causal Queries）。这种方式让模型先通过观察全局视觉上下文，再自主生成阅读顺序，从而使模型生成的序列更加符合人类阅读逻辑，能够精准捕捉复杂图表间的深层语义联系。

在解码器端，DeepSeek 保留了成熟的 3B 参数 MoE（混合专家）结构，通过约 5 亿活跃参数实现了极高的推理效率。

02. OmniDocBench 成绩飞跃，解析精度超越部分顶尖闭源模型

为了印证这一架构的优越性，DeepSeek 团队采用了三阶段训练法：编码器预训练、查询增强以及解码器专业化训练。 这种分步优化的策略确保了模型在特征提取、信息压缩及数据吞吐量上都达到了平衡点。

测试结果显示，DeepSeek-OCR 2 在 OmniDocBench 评测中表现强劲。其阅读顺序（R-order）的编辑距离显著优化，从 0.085 降至 0.057。这意味着 DeepEncoder V2 能够更准确地根据图像内容编排视觉标记，减少了文字解析过程中的逻辑偏离。

即使面对谷歌的 Gemini-3 Pro，DeepSeek-OCR 2 在文档解析的编辑距离上也展现出了微弱的领先优势（0.100 vs 0.115），证明了其在垂直 OCR 领域的深厚功底。

DeepSeek开源DeepSeek-OCR 2：自研DeepEncoder V2架构，实现类人眼逻辑的深度文档解析 DeepSeek-OCR 2 视觉语言模型 DeepEncoder V2 文档识别技术开源AI模型第4张

尽管如此，团队坦言 DeepSeek-OCR 2 在处理极高文本密度的报纸版面时仍有提升空间，未来计划通过局部裁剪技术和更丰富的数据样本进行迭代优化。

03. 结语：迈向全模态统一编码器的新纪元

DeepEncoder V2 的成功不仅验证了 LLM 风格编码器在视觉任务中的潜力，更预示着一个全模态统一时代的到来。DeepSeek 团队认为，该架构未来有望在同一参数空间内完成文本、语音与视觉内容的协同处理，为构建真正的原生多模态大模型奠定坚实基础。

性价比服务器免费vps 服务器教程

本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260433871.html

DeepSeek开源DeepSeek-OCR 2：自研DeepEncoder V2架构，实现类人眼逻辑的深度文档解析

01. 破解复杂文件结构难题：全局观察后的“因果阅读”

02. OmniDocBench 成绩飞跃，解析精度超越部分顶尖闭源模型

03. 结语：迈向全模态统一编码器的新纪元

智驾“大航海时代”：2025-2026年自动驾驶的深水远征与全球博弈

RTX 50系列显卡安装FlashAttention-2教程（Ubuntu 24.04系统大模型加速指南）

DeepSeek开源DeepSeek-OCR 2：自研DeepEncoder V2架构，实现类人眼逻辑的深度文档解析

01. 破解复杂文件结构难题：全局观察后的“因果阅读”

02. OmniDocBench 成绩飞跃，解析精度超越部分顶尖闭源模型

03. 结语：迈向全模态统一编码器的新纪元

智驾“大航海时代”：2025-2026年自动驾驶的深水远征与全球博弈

RTX 50系列显卡安装FlashAttention-2教程（Ubuntu 24.04系统大模型加速指南）

相关文章