当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR：视觉-文本压缩新突破

主机测评网
科技资讯
2026-05-05
136

一图胜千言！DeepSeek-OCR模型探索视觉-文本压缩新境界。通过少量视觉token解码出10倍以上的文本信息，这款端到端VLM架构在OmniDocBench基准上超越GOT-OCR2.0，为LLM的长上下文问题提供高效解决方案。

DeepSeek再推新模型！

Github上，DeepSeek新建了DeepSeek-OCR仓库，旨在探索视觉-文本压缩的边界。

正所谓：一图胜万言。对LLM而言同样如此！

理论上，DeepSeek-OCR模型初步验证了“上下文光学压缩”的可行性——

从少量视觉token中，模型能有效解码出超过其数量10倍的文本token。

这意味着，包含文档文本的单张图像能以远少于等效文本的token量来表征丰富信息。

这表明通过视觉token进行光学压缩可实现更高的压缩比。

作为连接视觉与语言的中间模态，OCR任务是视觉-文本压缩范式的理想试验场——

它在视觉与文本表征之间建立了天然的压缩-解压缩映射关系，并提供可量化的评估指标。

在OCR任务上，DeepSeek-OCR具有较高实用价值：在OmniDocBench基准测试中，仅用100个视觉token即超越GOT-OCR2.0（每页256token）；以少于800个视觉token的表现，优于MinerU2.0（平均每页6000+token）。

DeepSeek-OCR：视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩上下文光学压缩 VLM架构第1张图(a)展示了在Fox基准测试中的压缩比（真实文本token数/模型使用的视觉token数）；图(b)展示了在OmniDocBench上的性能对比

实际应用中，单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成。

新模型还能解析图表、化学方程式、简单几何图形和自然图像：

DeepSeek-OCR：视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩上下文光学压缩 VLM架构第2张

在不同历史上下文阶段中，DeepSeek-OCR的视觉-文本压缩可减少7–20倍的token，为解决大语言模型的长上下文问题提供了可行方向。

这一范式为重新思考视觉与语言模态的协同融合，进而提升大规模文本处理与智能体系统的计算效率，开辟了新的可能。

这一发现将有力推动视觉语言模型与大语言模型的未来发展。

Github：https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-OCR

开源神器DeepSeek-OCR，探索上下文光学压缩

当前开源VLM（视觉语言模型）采用三种主要视觉编码器架构，但各有缺陷。

DeepSeek-OCR：视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩上下文光学压缩 VLM架构第6张

随着VLM的进步，许多端到端的OCR模型应运而生，根本性地改变了传统的管道架构，简化了OCR系统。

但有个核心问题：

对于包含1,‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌的文档，至少需要多少个视觉token来解码？

这个问题对研究“一画胜千言”的原则具有重要意义。

DeepSeek-OCR意在回答这一问题。它采用统一的端到端VLM架构，由编码器和解码器组成。

编码器：DeepEncoder创新架构

能处理高分辨率图像；
在高分辨率下保持较低的激活开销；
生成较少的视觉token；
支持多分辨率输入；
参数规模适中。

研究者提出了全新的视觉编码器DeepEncoder。

DeepSeek-OCR：视觉-文本压缩新突破 DeepSeek-OCR 视觉-文本压缩上下文光学压缩 VLM架构第7张

解码器：DeepSeek-3B-MoE

...。在推理过程中，该模型激活了...参数。

具体结果

...。在Fox基准集...。

...；
...；
...。

...

...

性价比服务器高防服务器免费vps

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543008.html

DeepSeek-OCR：视觉-文本压缩新突破

开源神器DeepSeek-OCR，探索上下文光学压缩

编码器：DeepEncoder创新架构

解码器：DeepSeek-3B-MoE

具体结果

...

AI股市实战：DeepSeek V3.1领跑，Gemini垫底

全球高等教育变局：留学新趋势与国际化挑战

DeepSeek-OCR：视觉-文本压缩新突破

开源神器DeepSeek-OCR，探索上下文光学压缩

编码器：DeepEncoder创新架构

解码器：DeepSeek-3B-MoE

具体结果

...

AI股市实战：DeepSeek V3.1领跑，Gemini垫底

全球高等教育变局：留学新趋势与国际化挑战

相关文章