一图胜千言!DeepSeek-OCR模型探索视觉-文本压缩新境界。通过少量视觉token解码出10倍以上的文本信息,这款端到端VLM架构在OmniDocBench基准上超越GOT-OCR2.0,为LLM的长上下文问题提供高效解决方案。
DeepSeek再推新模型!
Github上,DeepSeek新建了DeepSeek-OCR仓库,旨在探索视觉-文本压缩的边界。
正所谓:一图胜万言。对LLM而言同样如此!
理论上,DeepSeek-OCR模型初步验证了“上下文光学压缩”的可行性——
从少量视觉token中,模型能有效解码出超过其数量10倍的文本token。
这意味着,包含文档文本的单张图像能以远少于等效文本的token量来表征丰富信息。
这表明通过视觉token进行光学压缩可实现更高的压缩比。
作为连接视觉与语言的中间模态,OCR任务是视觉-文本压缩范式的理想试验场——
它在视觉与文本表征之间建立了天然的压缩-解压缩映射关系,并提供可量化的评估指标。
在OCR任务上,DeepSeek-OCR具有较高实用价值:在OmniDocBench基准测试中,仅用100个视觉token即超越GOT-OCR2.0(每页256token);以少于800个视觉token的表现,优于MinerU2.0(平均每页6000+token)。
图(a)展示了在Fox基准测试中的压缩比(真实文本token数/模型使用的视觉token数);图(b)展示了在OmniDocBench上的性能对比
实际应用中,单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成。
新模型还能解析图表、化学方程式、简单几何图形和自然图像:
在不同历史上下文阶段中,DeepSeek-OCR的视觉-文本压缩可减少7–20倍的token,为解决大语言模型的长上下文问题提供了可行方向。
这一范式为重新思考视觉与语言模态的协同融合,进而提升大规模文本处理与智能体系统的计算效率,开辟了新的可能。
这一发现将有力推动视觉语言模型与大语言模型的未来发展。
Github:https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR
当前开源VLM(视觉语言模型)采用三种主要视觉编码器架构,但各有缺陷。
随着VLM的进步,许多端到端的OCR模型应运而生,根本性地改变了传统的管道架构,简化了OCR系统。
但有个核心问题:
对于包含1,的文档,至少需要多少个视觉token来解码?
这个问题对研究“一画胜千言”的原则具有重要意义。
DeepSeek-OCR意在回答这一问题。它采用统一的端到端VLM架构,由编码器和解码器组成。
研究者提出了全新的视觉编码器DeepEncoder。
...。在推理过程中,该模型激活了...参数。
...
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543008.html