【导读】DeepSeek 团队正式开源了 DeepSeek-OCR2,该模型的核心突破在于引入了创新的 DeepEncoder V2 视觉编码架构。这一设计彻底颠覆了传统模型按固定路径(从左上到右下)扫描图像的局限,转而深度模拟人类视觉的「因果流(Causal Flow)」逻辑。
DeepSeek 的技术迭代速度再次令人惊叹!
本次发布的 DeepSeek-OCR2 是对其视觉识别能力的重磅升级,标志着文档解析技术的新里程碑。
回顾上一代 DeepSeek-OCR,它凭借卓越的视觉压缩能力在行业内崭露头角。
而这一次,DeepSeek 团队对视觉编码层进行了底层重构,通过全新的 DeepEncoder V2 架构,实现了从「死板扫描」到「语义推理」的范式跨越!
DeepSeek-OCR2 不仅能够像人类一样遵循逻辑顺序解析复杂文档,更在多项权威基准测试中刷新了 SOTA 纪录。此外,DeepSeek 依然坚守开源精神,论文、代码及模型权重已全部对外开放。
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
DeepSeek-OCR2 的核心竞争力源于 DeepEncoder V2 赋予模型的「因果推理能力(Causal Reasoning)」。
这种机制如同为 AI 装上了人类的阅读逻辑:机器不再盲目地从左到右扫描像素,而是能根据内容的语义结构,灵活地调整信息的摄取与处理顺序。
在技术论文中,DeepSeek 指出传统的视觉语言模型(VLM)通常依赖光栅扫描(Raster-Scan)模式。这种强行将二维图像拉伸为一维序列的做法,往往会割裂图像固有的语义联系。
这种模式显然与人类的阅读习惯不符。我们在阅读时,视线会随逻辑自由跳动:锁定标题、略读正文、横向比对表格或纵向跨越分栏。
为了攻克这一难题,DeepEncoder V2 架构应运而生。它创新性地采用轻量级语言模型 Qwen2-0.5B 替代了传统的 CLIP 编码器,并构建了独有的「因果流查询(Causal Flow Query)」机制。
DeepEncoder V2 架构主要由以下两大模块构成:
1. 视觉分词组件(Vision Tokenizer)
基于 SAM-base(80M参数)结合卷积层,高效地将原始图像信号转化为视觉 Token。
2. 基于 LLM 的视觉编码器
通过引入 Qwen2-0.5B,模型不仅处理视觉 Token,还利用一组可学习的「查询 Token(Query Tokens)」来提取关键信息。
其最显著的突破在于注意力掩码(Attention Mask)的设计:
视觉 Token 之间保留双向注意力以维持全局视野;而查询 Token 则遵循因果注意力,形成级联推理链。这种设计确保模型在编码阶段就完成了信息的「逻辑重组」,从而大幅减轻了解码器的负担。
实验数据表明,DeepSeek-OCR2 在实现极高数据压缩率的同时,性能表现卓越。
在 OmniDocBench v1.5 基准测试中,DeepSeek-OCR2 仅使用 256-1120 个视觉 Token,便取得了 91.09% 的惊人得分,较前代版本提升了 3.73%。
特别是在阅读顺序(R-order)的编辑距离指标上,模型表现从 0.085 优化至 0.057,直观证明了其在处理复杂排版时具备更强的逻辑性。
即便与 Gemini-3 Pro 等顶级闭源模型相比,DeepSeek-OCR2 同样极具竞争力。在同等 Token 规模下,其文档解析的精准度(编辑距离 0.100)优于 Gemini-3 Pro(0.115)。
在实际生产环节,DeepSeek-OCR2 的表现同样抢眼。处理用户日志图像时,OCR 结果的重复率显著降低,PDF 数据处理流程也变得更加纯净高效,这为大规模 LLM 训练数据的清洗提供了巨大的商业价值。
通过 DeepSeek-OCR2 及其 DeepEncoder V2 架构,团队成功验证了「LLM 担当视觉编码器」的巨大潜力。这不仅是 OCR 技术的进化,更是向原生多模态(Native Multimodality)迈出的关键步伐。
展望未来,同一套编码框架只需配合特定的查询嵌入,即可在文本、图像、音频等多种模态间自由切换。DeepSeek 将继续深耕,致力于实现更通用的多模态人工智能。
参考来源:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433927.html