当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR:视觉-文本压缩新突破

一图胜千言!DeepSeek-OCR模型探索视觉-文本压缩新境界。通过少量视觉token解码出10倍以上的文本信息,这款端到端VLM架构在OmniDocBench基准上超越GOT-OCR2.0,为LLM的长上下文问题提供高效解决方案。

DeepSeek再推新模型!

Github上,DeepSeek新建了DeepSeek-OCR仓库,旨在探索视觉-文本压缩的边界。

正所谓:一图胜万言。对LLM而言同样如此!

理论上,DeepSeek-OCR模型初步验证了“上下文光学压缩”的可行性——

从少量视觉token中,模型能有效解码出超过其数量10倍的文本token。

这意味着,包含文档文本的单张图像能以远少于等效文本的token量来表征丰富信息。

这表明通过视觉token进行光学压缩可实现更高的压缩比。

作为连接视觉与语言的中间模态,OCR任务是视觉-文本压缩范式的理想试验场——

它在视觉与文本表征之间建立了天然的压缩-解压缩映射关系,并提供可量化的评估指标。

在OCR任务上,DeepSeek-OCR具有较高实用价值:在OmniDocBench基准测试中,仅用100个视觉token即超越GOT-OCR2.0(每页256token);以少于800个视觉token的表现,优于MinerU2.0(平均每页6000+token)。

DeepSeek-OCR:视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩 上下文光学压缩 VLM架构 第1张 图(a)展示了在Fox基准测试中的压缩比(真实文本token数/模型使用的视觉token数);图(b)展示了在OmniDocBench上的性能对比

实际应用中,单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成。

新模型还能解析图表、化学方程式、简单几何图形和自然图像:

DeepSeek-OCR:视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩 上下文光学压缩 VLM架构 第2张 DeepSeek-OCR:视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩 上下文光学压缩 VLM架构 第3张 DeepSeek-OCR:视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩 上下文光学压缩 VLM架构 第4张 DeepSeek-OCR:视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩 上下文光学压缩 VLM架构 第5张

在不同历史上下文阶段中,DeepSeek-OCR的视觉-文本压缩可减少7–20倍的token,为解决大语言模型的长上下文问题提供了可行方向。

这一范式为重新思考视觉与语言模态的协同融合,进而提升大规模文本处理与智能体系统的计算效率,开辟了新的可能。

这一发现将有力推动视觉语言模型与大语言模型的未来发展。

Github:https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

开源神器DeepSeek-OCR,探索上下文光学压缩

当前开源VLM(视觉语言模型)采用三种主要视觉编码器架构,但各有缺陷。

DeepSeek-OCR:视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩 上下文光学压缩 VLM架构 第6张

随着VLM的进步,许多端到端的OCR模型应运而生,根本性地改变了传统的管道架构,简化了OCR系统。

但有个核心问题:

对于包含1,​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​‌​‌‌​‌‌​​​‌‌‌​‌‌‌‌​​​​​​​​​​​​​​​​‌‌‌‌‌​‌‌‌​​​​​‌‌‌‌​的文档,至少需要多少个视觉token来解码?

这个问题对研究“一画胜千言”的原则具有重要意义。

DeepSeek-OCR意在回答这一问题。它采用统一的端到端VLM架构,由编码器和解码器组成。

编码器:DeepEncoder创新架构

  1. 能处理高分辨率图像;
  2. 在高分辨率下保持较低的激活开销;
  3. 生成较少的视觉token;
  4. 支持多分辨率输入;
  5. 参数规模适中。

研究者提出了全新的视觉编码器DeepEncoder。

DeepSeek-OCR:视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩 上下文光学压缩 VLM架构 第7张

解码器:DeepSeek-3B-MoE

...。在推理过程中,该模型激活了...参数。

具体结果

  1. ...。在Fox基准集...。
  • ...;
  • ...;
  • ...。

...

...