DeepSeek 又放大招了,这次它仅用原本十分之一不到的 token,就能存下几乎一样多的文字信息,这压缩比,就连香农看了都要感叹,冯·诺伊曼看了都要沉默。
这一成果直接让一群老外惊呆了。
昨天,DeepSeek 发布了新模型 DeepSeek-OCR,OCR 是什么大家都清楚,就是把图片里的文字识别出来。
经常用微信的朋友应该知道,微信客户端里的图片,被点开后,是可以直接复制文字的。
没错,这就是 OCR 技术的一个应用。
但 DeepSeek 这次搞的「技能 OCR」却反其道而行之,它能把大量文字变成一张图片,作为 AI 的“记忆载体”。
是的,用文字存储信息已经不够用了。
以往的大模型,无论是 ChatGPT、Gemini、Llama、Qwen 还是 DeepSeek 自己,读取数据时都依赖一种方式:文字,也就是平时说的 token。
我们写的 Prompt 会被转换成大量 token 给大模型,提供的参考资料也一样。即便是能识别图像的多模态大模型,也要先把图片转换成文字描述。
但文字 token 真的是大模型理解世界的唯一方式吗?
DeepSeek 决定尝试新路径,毕竟,文字和图片放在一起,后者能包含更多信息。
比如这个描述就不够全面:
那我们能不能直接用图片来训练大模型呢?
于是 DeepSeek 开始尝试,结果发现用图片训练出来的模型既美观又实用。
一方面,它可以用更少的 token 记住更多内容。
在测试文档理解能力的任务里,DeepSeek-OCR 仅用 100 个视觉 token 就超越了需要 256 个 token 的 GOT-OCR 2.0。
更厉害的是,它用 不到 800 个视觉 token 就击败了平均需要 6000+ token 的 MinerU 2.0。
这意味着,当大模型开始使用图像方式记忆数据后,就能用更少的 token 取得更好的表达效果。
另外,DeepSeek-OCR 还支持多种分辨率和压缩模式以适应不同复杂度的文档:
例如,一张只有图片背景和标题的 PPT 可能只需 64 个视觉 token。如果内容多,会自动切换到 Large 模式,用最多 400 个视觉 token。还有动态调整的 Gundam 模式来记忆图片。
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543104.html