当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR：图像记忆引领AI新纪元

DeepSeek 又放大招了，这次它仅用原本十分之一不到的 token，就能存下几乎一样多的文字信息，这压缩比，就连香农看了都要感叹，冯·诺伊曼看了都要沉默。

这一成果直接让一群老外惊呆了。

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第1张

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第2张

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第3张

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第4张

昨天，DeepSeek 发布了新模型 DeepSeek-OCR，OCR 是什么大家都清楚，就是把图片里的文字识别出来。

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第5张

经常用微信的朋友应该知道，微信客户端里的图片，被点开后，是可以直接复制文字的。

没错，这就是 OCR 技术的一个应用。

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第6张

但 DeepSeek 这次搞的「技能 OCR」却反其道而行之，它能把大量文字变成一张图片，作为 AI 的“记忆载体”。

是的，用文字存储信息已经不够用了。

以往的大模型，无论是 ChatGPT、Gemini、Llama、Qwen 还是 DeepSeek 自己，读取数据时都依赖一种方式：文字，也就是平时说的 token。

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第7张

我们写的 Prompt 会被转换成大量 token 给大模型，提供的参考资料也一样。即便是能识别图像的多模态大模型，也要先把图片转换成文字描述。

但文字 token 真的是大模型理解世界的唯一方式吗？

DeepSeek 决定尝试新路径，毕竟，文字和图片放在一起，后者能包含更多信息。

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第8张

比如这个描述就不够全面：

那我们能不能直接用图片来训练大模型呢？

于是 DeepSeek 开始尝试，结果发现用图片训练出来的模型既美观又实用。

一方面，它可以用更少的 token 记住更多内容。

在测试文档理解能力的任务里，DeepSeek-OCR 仅用 100 个视觉 token 就超越了需要 256 个 token 的 GOT-OCR 2.0。

更厉害的是，它用 不到 800 个视觉 token 就击败了平均需要 6000+ token 的 MinerU 2.0。

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第9张

这意味着，当大模型开始使用图像方式记忆数据后，就能用更少的 token 取得更好的表达效果。

另外，DeepSeek-OCR 还支持多种分辨率和压缩模式以适应不同复杂度的文档：

例如，一张只有图片背景和标题的 PPT 可能只需 64 个视觉 token。如果内容多，会自动切换到 Large 模式，用最多 400 个视觉 token。还有动态调整的 Gundam 模式来记忆图片。

DeepSeek-OCR：图像记忆引领AI新纪元 DeepSeek-OCR 图像记忆大模型 AI 第10张

本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543104.html