当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR:图像记忆引领AI新纪元

DeepSeek 又放大招了,这次它仅用原本十分之一不到的 token,就能存下几乎一样多的文字信息,这压缩比,就连香农看了都要感叹,冯·诺伊曼看了都要沉默。

这一成果直接让一群老外惊呆了。

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第1张

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第2张

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第3张

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第4张

昨天,DeepSeek 发布了新模型 DeepSeek-OCR,OCR 是什么大家都清楚,就是把图片里的文字识别出来。

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第5张

经常用微信的朋友应该知道,微信客户端里的图片,被点开后,是可以直接复制文字的。

没错,这就是 OCR 技术的一个应用。

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第6张

但 DeepSeek 这次搞的「技能 OCR」却反其道而行之,它能把大量文字变成一张图片,作为 AI 的“记忆载体”。

是的,用文字存储信息已经不够用了。

以往的大模型,无论是 ChatGPT、Gemini、Llama、Qwen 还是 DeepSeek 自己,读取数据时都依赖一种方式:文字,也就是平时说的 token。

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第7张

我们写的 Prompt 会被转换成大量 token 给大模型,提供的参考资料也一样。即便是能识别图像的多模态大模型,也要先把图片转换成文字描述。

但文字 token 真的是大模型理解世界的唯一方式吗?

DeepSeek 决定尝试新路径,毕竟,文字和图片放在一起,后者能包含更多信息。

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第8张

比如这个描述就不够全面:

那我们能不能直接用图片来训练大模型呢?

于是 DeepSeek 开始尝试,结果发现用图片训练出来的模型既美观又实用。

一方面,它可以用更少的 token 记住更多内容。

在测试文档理解能力的任务里,DeepSeek-OCR 仅用 100 个视觉 token 就超越了需要 256 个 token 的 GOT-OCR 2.0。

更厉害的是,它用 不到 800 个视觉 token 就击败了平均需要 6000+ token 的 MinerU 2.0。

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第9张

这意味着,当大模型开始使用图像方式记忆数据后,就能用更少的 token 取得更好的表达效果。

另外,DeepSeek-OCR 还支持多种分辨率和压缩模式以适应不同复杂度的文档:

例如,一张只有图片背景和标题的 PPT 可能只需 64 个视觉 token。如果内容多,会自动切换到 Large 模式,用最多 400 个视觉 token。还有动态调整的 Gundam 模式来记忆图片。

DeepSeek-OCR:图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆 大模型 AI 第10张