当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR：创新光学压缩技术，引领大语言模型新变革

主机测评网
科技资讯
2026-05-05
828

在大语言模型不断攀升的上下文窗口挑战中，DeepSeek开创性地提出了一条独树一帜的技术路径。

智东西于10月20日讯，今日上午，DeepSeek正式开源了其DeepSeek-OCR模型，并首次提出了“上下文光学压缩（Contexts Optical Compression）”概念，通过文本转图像实现信息的高效压缩。

DeepSeek-OCR：创新光学压缩技术，引领大语言模型新变革 DeepSeek-OCR 光学压缩大语言模型文本压缩第1张

该方法的可行性已经得到验证，在10倍压缩比下，DeepSeek-OCR的解码精度可达97%，几乎实现无损压缩；在20倍压缩比下，精度仍保持约60%。

DeepSeek-OCR：创新光学压缩技术，引领大语言模型新变革 DeepSeek-OCR 光学压缩大语言模型文本压缩第2张

将等量的文本token转化为视觉token（图像）后，DeepSeek-OCR能用更少的token数表达相近的文本内容，这为解决大语言模型在长文本处理中的高算力开销提供了新的思路。

此外，DeepSeek-OCR还展现出极高的实际应用价值。在OmniDocBench上，它仅使用100个视觉token就超越了GOT-OCR2.0（每页256个token），并且在少于800个视觉tokens的情况下，性能超过了MinerU2.0（平均每页近7000个token）。

DeepSeek-OCR：创新光学压缩技术，引领大语言模型新变革 DeepSeek-OCR 光学压缩大语言模型文本压缩第3张

在生产环境中，DeepSeek-OCR可每天在单个A100-40G GPU上生成20万页以上的训练数据，为大规模文档理解和多模态模型训练提供支持。

目前，该模型已在Hugging Face上开源，而介绍DeepSeek-OCR模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR团队表示，此番开源的模型是对一种潜在解决方案的初步探索，即利用视觉模态作为文本信息的高效压缩媒介。

值得一提的是，与DeepSeek过往新模型动辄数十人的作者团队不同，这篇论文的作者仅有3人，分别为Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR论文的第一作者Haoran Wei也是GOT-OCR2.0论文的第一作者，GOT-OCR2.0是阶跃星辰去年9月发布的一款OCR模型。

DeepSeek-OCR：创新光学压缩技术，引领大语言模型新变革 DeepSeek-OCR 光学压缩大语言模型文本压缩第4张

开源地址：https://huggingface.co/deepseek-ai/DeepSeek-OCR

论文链接：https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

光学压缩实现高压缩比：解码需要多少视觉token？

过去几年，AI模型的上下文能力不断扩展——从4K到128K，再到上百万token，但代价是算力与显存的成倍增加。

然而，文本其实是一种冗余的信息形式。DeepSeek-OCR团队认为：“一张包含文档文本（document text）的图像，可以用比等效数字文本（digital text）少得多的token来表示丰富信息。这表明，通过视觉token进行光学压缩可以实现更高的压缩比。”

目前，业内已在VLM视觉编码器和端到端OCR模型上进行了一定探索。基于此前的研究，DeepSeek-OCR团队发现了一个关键研究问题：对于包含1000个单词的文档，解码至少需要多少视觉token？这一问题对研究“一图胜千言”的原则具有重要意义。

围绕这一问题，DeepSeek打造了一个验证系统——DeepSeek-OCR。该模型通过将文本“光学化”，将原本数千个文字token压缩成几百个视觉token，再由语言模型解码回原文。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder——一个专为高压缩、高分辨率文档处理设计的视觉编码器；二是DeepSeek3B-MoE——一个轻量级混合专家语言解码器。

DeepSeek-OCR：创新光学压缩技术，引领大语言模型新变革 DeepSeek-OCR 光学压缩大语言模型文本压缩第5张

DeepEncoder：显著减少视觉token数量

DeepEncoder采用SAM + CLIP的双结构设计，通过局部窗口注意力结合全局注意力实现高保真视觉理解，并用一个双层的16×卷积压缩模块显著减少视觉token数量。

例如，当输入1瞜緘綯的文档图片时，传统视觉模型会生成4瞜緘綯的token，而DeepEncoder能将其压缩至仅鼤緘綯的token，使激活内存数量更可控。

此外，它支持多种“分辨率模式”。从轻量的Tiny（64 token）到高保真的Gundam（795 token），模型可根据任务复杂度自动选择压缩等级。

论文展示了不同分辨率的压缩效果。在Tiny模式下，图片中的文字略显模糊但基本能看清；而在高保真的Gundam模式下，图中文字的阅读体验与原文无显著差异。

DeepSeek-OCR：创新光学压缩技术，引领大语言模型新变革 DeepSeek-OCR 光学压缩大语言模型文本压缩第6张

DeepSeek3B-MoE：激活参数仅5.7B

在解码端，DeepSeek采用自研的DeepSeek3B-MoE架构，推理时仅激活6个专家模块，总激活参数量约5.7亿。

这种“按需激活”的机制使模型既具备强表达能力，又能保持低延迟和高能效，非常适合文档OCR、图文生成等场景。

数据引擎：从文档到图表、化学式、几何图

DeepSeek还构建了一个庞大的数据集，包含四大数据类型：

(1) OCR 1.〇数据：包含3垜緘綯页多语言文档与自然场景文字等；

(2) OCR 2.〇数据：涵盖图表、化学公式、几何图形解析等；

(3) 通用视觉数据：为模型注入基础图像理解能力；

(4) 纯文本数据：维持语言流畅度与上下文建模。

高效信息表示或成大模型潜在优化方向

...（内容略）

服务器教程免费服务器性价比服务器

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542989.html

上一篇

闻泰科技遭遇“天花板级黑天鹅”：转型挑战与全球产业链博弈

下一篇

沃橙新能源150亿豪赌：从系统集成到核心部件制造商的转型挑战