当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR:视觉压缩技术革新文本处理方式

人工智能领域近日又现创新突破,DeepSeek 团队默默开源了一款拥有30亿参数的紧凑型模型,即DeepSeek-OCR

尽管模型体积不大,但其理念极具颠覆性:尝试让人工智能通过视觉方式解读文本

是的,真正做到“看图识字”。

这不仅限于识别文字,更是将“视觉模态”转化为一种文本压缩载体,用图像表征文字,以“视觉 token”替代“文本 token”,实现所谓的光学压缩(Optical Compression)

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第1张

坦率地说,初次看到这篇论文时,笔者的直觉反应是:难道他们想让语言模型也进修美术课程?

但深思之后,发现此想法颇有见地。

大型语言模型(LLM)的核心挑战何在?处理长文本时计算资源消耗巨大。

众所周知,大模型的注意力机制复杂度呈平方级增长。输入长度翻倍,计算量增至四倍;若让其记忆完整长文档,瞬间便开启“燃烧显卡与心智”模式。

能否转换思路?DeepSeek 团队提出:既然单张图像可容纳大量文字,何不直接将文本转换为图像,再让模型进行视觉解析!

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第2张

论文中展示了一个鲜明案例:原本需要 1000 个 token 表述的内容,现仅用 100 个视觉 token 即可处理,压缩率达 10 倍,且保持 97% 的 OCR 准确度。

进一步,即使压缩 20 倍,仍能维持约 60% 的准确率。这意味着,模型“读图”的效率,竟超越了“读字”。

换言之,模型在未丢失大量信息的前提下,计算负担减轻了十倍。

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第3张

众多网友见此无不惊讶:AI 处理图像所需资源竟少于长文本?这违背常规认知!

亦有网友感慨:DeepSeek 此举意在让模型“浏览文档如刷社交媒体般轻快”。

笔者认为,此番操作可誉为“逆向降维打击”。

以往我们致力于让模型更精通文字、扩展上下文;DeepSeek 却反其道而行:使模型将文字转化为图像,再“以图识文”。类似回归人类最初的沟通形态:象形文字。

谈及技术实现,DeepSeek-OCR 由两大组件构成:DeepEncoder(视觉压缩编码器)与DeepSeek3B-MoE(解码还原器)。

前者作为系统的“压缩引擎”,整合了 SAM-base 与 CLIP-large 两大视觉强者:

SAM 专注局部“窗口注意力”捕捉细节,CLIP 掌管整体“全局注意力”把握全貌。其间嵌入 16× 卷积压缩模块,专门缩减 token 数量。

例如,一张 1024×1024 的图像,理论需分割为 4096 个区块处理,经此压缩模块精简后,直接凝练为数百个 token。

如此,既维护了清晰度,又避免了显存过载。

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第4张

此外,它还支持多级分辨率模式:Tiny、Small、Base、Large,以及一个名为 “Gundam(高达)” 的动态自适应模式。

是的,此模型命名亦透出一丝“动漫情怀”。

解码器部分则延续 DeepSeek 的专长:MoE(混合专家)架构

64 位专家中每次仅激活 6 位,辅以两位共享专家,实际动用参数约 5.7 亿,性能却堪比 30 亿模型。高效节能,可谓“节能技术中的顶尖典范”。

其任务简明:从压缩后的视觉 token 中,将文字“解码”复原。

全过程犹如 OCR 的进阶版,但此次是模型自主“读图猜字”,而非人类教导识字,且猜测精度极高。

当然,要训练此模型,需充足数据滋养。DeepSeek 此次投入巨量资源:总计 3000 万页 PDF 文档,覆盖 100 种语言,其中中英文占 2500 万页。

他们还构建了“模型增强循环”:先用版面分析模型进行粗标注,再以 GOT-OCR 等模型精细标注,训练迭代后,反哺更多数据标注。

循环往复,模型实现自我成长。

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第5张

除此之外,另有 300 万条 Word 文档,专项训练公式识别、HTML 表格提取,甚至涵盖金融图表、化学结构式、几何图形等多样图像结构,均纳入训练集。

DeepSeek 还从 LAION、Wukong 等开源数据集采集中英文各 1000 万张场景图,通过 PaddleOCR 标注。

可以说,此次训练真正实现了“跨学科全覆盖”,确系以海量数据锤炼出的智慧结晶。

效果如何?论文列出的多组结果表现卓越。

在 OmniDocBench 测试中,DeepSeek-OCR 仅用100 个视觉 token便超越 GOT-OCR2.0(每页 256 token)。使用不足800 个视觉 token,又胜过 MinerU2.0(每页 6000+ token)。

性能更优、输入更简、推理更迅捷。

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第6张

此等速度,堪称“AI 印刷机”。

然而,最令笔者赞叹的,是论文末尾的构思:光学压缩能否模拟人类遗忘机制?

人脑记忆随岁月流逝而模糊,旧事渐淡,新事清晰。DeepSeek 团队思考:AI 能否也学会“遗忘”?

若 AI 能如人类般“选择性记忆”,是否能在超长对话中更从容?

他们设计了一项实验构想:超过第 k 轮的历史对话内容,渲染为图像;先压缩一次,减少 10 倍 token;若更久远,继续降低图像尺寸;图像越小,信息越模糊,最终实现“遗忘”。

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第7张

有网友阅毕直言:这正是在模拟人脑记忆原理!

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第8张

当然,亦有质疑声:DeepSeek 的幻觉问题本就显著,若再学会“遗忘”,恐遗忘速度超越人类。

笔者观此部分,深感哲学意蕴。AI 的记忆,究竟应无限扩展,还是学会遗忘?

DeepSeek 给出的答案是后者,借视觉方式,让模型在“压缩”同时“筛选”冗余。恰似人脑:仅留存有用信息。

DeepSeek-OCR:视觉压缩技术革新文本处理方式 DeepSeek-OCR  光学压缩 视觉token 文本处理优化 第9张

此举意义超越 OCR 本身,它重塑了“上下文”概念:非记忆之多,乃记忆之精。

归根结底,DeepSeek-OCR 表面为 OCR 模型,实则在探索新范式:能否以视觉模态高效承载语言信息?

当众人追逐“更大、更长、更昂贵”时,DeepSeek 却反手打造“更小、更快、更精巧”的模型。

此本就深具 DeepSeek 风格。

笔者最终想言:AI 的演进,未必总是加法,有时减法更为优雅。

DeepSeek-OCR 即为明证:一个 3B 小模型,开拓长文本压缩新径,甚至触及“记忆与遗忘”的边界。

若去年主题是“谁能记忆更多”,今年或许变为“谁能遗忘更智”。而 DeepSeek,此次再度领先。