▲头图由AI生成
智东西1月27日报道,AI巨头DeepSeek近日正式宣布开源其专为OCR(光学字符识别)场景打造的深度学习模型——DeepSeek-OCR 2,并同步公开了详细的技术报告。作为去年原版模型的重大升级,DeepSeek-OCR 2引入了创新的解码机制,使其观察图片与阅读文件的逻辑更接近人类的思维顺序,而非传统机械式的线性扫描。
以往的OCR模型通常遵循从左上到右下的固定地毯式扫描路径,而DeepSeek-OCR 2具备了结构理解能力。通过对文档全局结构的感知,模型能够按逻辑分步骤读取内容,这种跨越式的视觉理解模式,显著提升了模型在处理复杂页面布局、高难度数学公式以及多行表格时的准确度。
在权威的文档理解评测基准 OmniDocBench v1.5 中,DeepSeek-OCR 2 取得了 91.09% 的优异成绩。在保持训练数据与编码器基础不变的情况下,其性能较初代模型提升了 3.73%。在端到端OCR模型阵营中,这一表现已稳居 SOTA(行业最高水平),仅略微次于百度 PaddleOCR-VL 的管线化处理表现。
此外,在同等视觉 Token 预算的测试下,DeepSeek-OCR 2 的文档解析编辑距离表现甚至优于 Gemini-3 Pro。这有力证明了该模型在维持顶尖性能的同时,拥有极高的视觉信息压缩效率,能以更少的资源消耗达成更精准的解析效果。
DeepSeek-OCR 2 的发布展现了双重行业价值:它既是 VLM(视觉语言模型)新型架构的一次先锋式探索,也是一款能够生成高质量预训练数据的实战工具,可有效助力大语言模型的进化过程。
论文链接: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
开源地址: https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file
从底层设计来看,DeepSeek-OCR 2 延续了编码器-解码器的经典架构。编码器负责将图像信息转化为离散的视觉 Token,而解码器则结合这些 Token 与文本指令生成最终结果。其核心革新在于:DeepSeek 推出了 DeepEncoder V2,通过引入因果推理机制,将原本基于 CLIP 的编码器升级为基于大模型(LLM)逻辑的编码器。
DeepEncoder V2 旨在解决传统模型在建模空间关系时的局限性——即线性顺序往往与文档真实的语义布局不匹配。为了突破这一瓶颈,该模型采用了高效的视觉 Tokenizer,通过窗口注意力机制实现了约 16 倍的 Token 压缩,在降低计算开销的同时保留了丰富的视觉细节。
最引人注目的是,它摒弃了依赖位置编码规定顺序的传统方法,转而采用 因果流查询(Causal Queries)。这种方式让模型先通过观察全局视觉上下文,再自主生成阅读顺序,从而使模型生成的序列更加符合人类阅读逻辑,能够精准捕捉复杂图表间的深层语义联系。
在解码器端,DeepSeek 保留了成熟的 3B 参数 MoE(混合专家)结构,通过约 5 亿活跃参数实现了极高的推理效率。
为了印证这一架构的优越性,DeepSeek 团队采用了三阶段训练法:编码器预训练、查询增强以及解码器专业化训练。 这种分步优化的策略确保了模型在特征提取、信息压缩及数据吞吐量上都达到了平衡点。
测试结果显示,DeepSeek-OCR 2 在 OmniDocBench 评测中表现强劲。其阅读顺序(R-order)的编辑距离显著优化,从 0.085 降至 0.057。这意味着 DeepEncoder V2 能够更准确地根据图像内容编排视觉标记,减少了文字解析过程中的逻辑偏离。
即使面对谷歌的 Gemini-3 Pro,DeepSeek-OCR 2 在文档解析的编辑距离上也展现出了微弱的领先优势(0.100 vs 0.115),证明了其在垂直 OCR 领域的深厚功底。
尽管如此,团队坦言 DeepSeek-OCR 2 在处理极高文本密度的报纸版面时仍有提升空间,未来计划通过局部裁剪技术和更丰富的数据样本进行迭代优化。
DeepEncoder V2 的成功不仅验证了 LLM 风格编码器在视觉任务中的潜力,更预示着一个全模态统一时代的到来。DeepSeek 团队认为,该架构未来有望在同一参数空间内完成文本、语音与视觉内容的协同处理,为构建真正的原生多模态大模型奠定坚实基础。
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433871.html