当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度

【导读】DeepSeek 团队正式开源了 DeepSeek-OCR2,该模型的核心突破在于引入了创新的 DeepEncoder V2 视觉编码架构。这一设计彻底颠覆了传统模型按固定路径(从左上到右下)扫描图像的局限,转而深度模拟人类视觉的「因果流(Causal Flow)」逻辑。

DeepSeek 的技术迭代速度再次令人惊叹!

本次发布的 DeepSeek-OCR2 是对其视觉识别能力的重磅升级,标志着文档解析技术的新里程碑。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第1张

回顾上一代 DeepSeek-OCR,它凭借卓越的视觉压缩能力在行业内崭露头角。

而这一次,DeepSeek 团队对视觉编码层进行了底层重构,通过全新的 DeepEncoder V2 架构,实现了从「死板扫描」到「语义推理」的范式跨越!

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第2张

DeepSeek-OCR2 不仅能够像人类一样遵循逻辑顺序解析复杂文档,更在多项权威基准测试中刷新了 SOTA 纪录。此外,DeepSeek 依然坚守开源精神,论文、代码及模型权重已全部对外开放。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第3张

项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2 的核心竞争力源于 DeepEncoder V2 赋予模型的「因果推理能力(Causal Reasoning)」。

这种机制如同为 AI 装上了人类的阅读逻辑:机器不再盲目地从左到右扫描像素,而是能根据内容的语义结构,灵活地调整信息的摄取与处理顺序。

核心技术:视觉因果流的深度解析

在技术论文中,DeepSeek 指出传统的视觉语言模型(VLM)通常依赖光栅扫描(Raster-Scan)模式。这种强行将二维图像拉伸为一维序列的做法,往往会割裂图像固有的语义联系。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第4张

这种模式显然与人类的阅读习惯不符。我们在阅读时,视线会随逻辑自由跳动:锁定标题、略读正文、横向比对表格或纵向跨越分栏。

为了攻克这一难题,DeepEncoder V2 架构应运而生。它创新性地采用轻量级语言模型 Qwen2-0.5B 替代了传统的 CLIP 编码器,并构建了独有的「因果流查询(Causal Flow Query)」机制。

DeepEncoder V2 架构深度拆解

DeepEncoder V2 架构主要由以下两大模块构成:

1. 视觉分词组件(Vision Tokenizer)

基于 SAM-base(80M参数)结合卷积层,高效地将原始图像信号转化为视觉 Token。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第5张

2. 基于 LLM 的视觉编码器

通过引入 Qwen2-0.5B,模型不仅处理视觉 Token,还利用一组可学习的「查询 Token(Query Tokens)」来提取关键信息。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第6张

其最显著的突破在于注意力掩码(Attention Mask)的设计:

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第7张

视觉 Token 之间保留双向注意力以维持全局视野;而查询 Token 则遵循因果注意力,形成级联推理链。这种设计确保模型在编码阶段就完成了信息的「逻辑重组」,从而大幅减轻了解码器的负担。

高效低耗:Token 数量减少,精度大幅提升

实验数据表明,DeepSeek-OCR2 在实现极高数据压缩率的同时,性能表现卓越。

在 OmniDocBench v1.5 基准测试中,DeepSeek-OCR2 仅使用 256-1120 个视觉 Token,便取得了 91.09% 的惊人得分,较前代版本提升了 3.73%。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第8张

特别是在阅读顺序(R-order)的编辑距离指标上,模型表现从 0.085 优化至 0.057,直观证明了其在处理复杂排版时具备更强的逻辑性。

即便与 Gemini-3 Pro 等顶级闭源模型相比,DeepSeek-OCR2 同样极具竞争力。在同等 Token 规模下,其文档解析的精准度(编辑距离 0.100)优于 Gemini-3 Pro(0.115)。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第9张

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第10张

在实际生产环节,DeepSeek-OCR2 的表现同样抢眼。处理用户日志图像时,OCR 结果的重复率显著降低,PDF 数据处理流程也变得更加纯净高效,这为大规模 LLM 训练数据的清洗提供了巨大的商业价值。

DeepSeek-OCR2震撼发布:DeepEncoder V2模拟人类视觉,重定义文档识别新高度 DeepSeek-OCR2  DeepEncoder V2 视觉编码器 因果推理 开源多模态 第11张

远景:迈向原生多模态的统一

通过 DeepSeek-OCR2 及其 DeepEncoder V2 架构,团队成功验证了「LLM 担当视觉编码器」的巨大潜力。这不仅是 OCR 技术的进化,更是向原生多模态(Native Multimodality)迈出的关键步伐。

展望未来,同一套编码框架只需配合特定的查询嵌入,即可在文本、图像、音频等多种模态间自由切换。DeepSeek 将继续深耕,致力于实现更通用的多模态人工智能。

参考来源:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2