当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR:以视觉模态重塑文本压缩新纪元

AI 科技界又掀起了一股新潮流,DeepSeek 团队低调开源了一个仅有 30 亿参数的小型模型,名为 DeepSeek-OCR

别看它体积小巧,创意却相当震撼:他们居然想利用 AI 通过图像识别文本

没错,真正实现了“看图识字”。

而且,这不仅仅局限于识字,而是将“视觉模态”转变为一种 文本压缩介质,用图片来代表文字,用“视觉 token”替代“文本 token”,从而实现了所谓的 光学压缩(Optical Compression)

DeepSeek-OCR:以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态 光学压缩 文本压缩 第1张

当我首次读到这篇论文的内容时,第一反应是:他们想让语言模型也学习艺术?

但仔细思考后,觉得颇有道理。

大型语言模型(LLM)的最大痛点是什么?处理长文本太消耗算力。

众所周知,大模型的注意力机制复杂度是平方级的。你给它2倍的输入,它要计算4倍的内容;如果让它记住整个长文档,它会立即开始“消耗资源”。

那么,换个思路如何?DeepSeek 团队提出:既然一张图能容纳大量文字,那不如 直接把文本变成图像,再让模型看图!

DeepSeek-OCR:以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态 光学压缩 文本压缩 第2张

论文中有个生动的例子:原本需要 1000 个 token 表达的内容,现在仅用 100 个视觉 token 就能搞定,压缩 10 倍,还能保留 97% 的 OCR 准确率。

更惊人的是,压缩 20 倍时仍能保持约 60% 的准确率。这意味着,模型“读图”的效率,居然比“读字”还高。

换句话说,模型没有丢失太多信息,但算力负担却减轻了十倍。

DeepSeek-OCR:以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态 光学压缩 文本压缩 第3张

许多网友看到这儿都惊呆了:AI 处理图像用的量比长文本还少?这颠覆了人类的直觉啊!

也有网友感慨:DeepSeek 似乎想让模型“看文档像刷朋友圈”一样轻松。

我认为,这波操作堪称“反向降维打击”。

过去我们都在努力让模型更懂文字、看得更远;而 DeepSeek 却反其道而行之:让模型 把字变成画,再“看画识文”。这有点像回到了人类最原始的沟通方式:象形。

说到这儿,不得不提这个模型是如何运作的。DeepSeek-OCR 由两部分组成:DeepEncoder(看图压缩)+ DeepSeek3B-MoE(解码还原)。

前者是整个系统的“压缩引擎”,它将两大视觉猛将 SAM-base 和 CLIP-large 结合起来:

SAM 负责细节“窗口注意力”,CLIP 负责整体“全局注意力”。中间还嵌入了一个 16× 卷积压缩模块,专门削减 token。

例如,一张 1024×1024 的图片,理论上要被切成 4096 块处理,现在被这压缩模块一处理,直接瘦身成几百个 token。

这样一来,既保留了清晰度,又不占用大量显存。

DeepSeek-OCR:以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态 光学压缩 文本压缩 第4张

此外,它还支持多档分辨率模式:Tiny、Small、Base、Large,以及代号“Gundam(高达)”的动态模式。

你没听错,这个模型甚至取名都带点“中二魂”。

解码器部分则是 DeepSeek 的专长:MoE(混合专家)架构.

64 个专家中每次只激活 6 个,再加两个共享专家,实际算力只动用了约 5.7 亿参数,但性能堪比 30 亿模型。又快又省,堪称“节能灯中的战斗机”。

它的任务也不复杂,就是从那些压缩后的视觉 token 中,把文字“解码”回来。

整个过程有点像 OCR 的升级版,但这次是模型自己在“看图猜字”,而不是人类教它识字,而且猜得非常准。

DeepSeek-OCR:以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态 光学压缩 文本压缩 第5张

...