当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR：以视觉模态重塑文本压缩新纪元

AI 科技界又掀起了一股新潮流，DeepSeek 团队低调开源了一个仅有 30 亿参数的小型模型，名为 DeepSeek-OCR。

别看它体积小巧，创意却相当震撼：他们居然想利用 AI 通过图像识别文本。

没错，真正实现了“看图识字”。

而且，这不仅仅局限于识字，而是将“视觉模态”转变为一种 文本压缩介质，用图片来代表文字，用“视觉 token”替代“文本 token”，从而实现了所谓的 光学压缩（Optical Compression）。

DeepSeek-OCR：以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态光学压缩文本压缩第1张

当我首次读到这篇论文的内容时，第一反应是：他们想让语言模型也学习艺术？

但仔细思考后，觉得颇有道理。

大型语言模型（LLM）的最大痛点是什么？处理长文本太消耗算力。

众所周知，大模型的注意力机制复杂度是平方级的。你给它2倍的输入，它要计算4倍的内容；如果让它记住整个长文档，它会立即开始“消耗资源”。

那么，换个思路如何？DeepSeek 团队提出：既然一张图能容纳大量文字，那不如 直接把文本变成图像，再让模型看图！

DeepSeek-OCR：以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态光学压缩文本压缩第2张

论文中有个生动的例子：原本需要 1000 个 token 表达的内容，现在仅用 100 个视觉 token 就能搞定，压缩 10 倍，还能保留 97% 的 OCR 准确率。

更惊人的是，压缩 20 倍时仍能保持约 60% 的准确率。这意味着，模型“读图”的效率，居然比“读字”还高。

换句话说，模型没有丢失太多信息，但算力负担却减轻了十倍。

DeepSeek-OCR：以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态光学压缩文本压缩第3张

许多网友看到这儿都惊呆了：AI 处理图像用的量比长文本还少？这颠覆了人类的直觉啊！

也有网友感慨：DeepSeek 似乎想让模型“看文档像刷朋友圈”一样轻松。

我认为，这波操作堪称“反向降维打击”。

过去我们都在努力让模型更懂文字、看得更远；而 DeepSeek 却反其道而行之：让模型 把字变成画，再“看画识文”。这有点像回到了人类最原始的沟通方式：象形。

说到这儿，不得不提这个模型是如何运作的。DeepSeek-OCR 由两部分组成：DeepEncoder（看图压缩）+ DeepSeek3B-MoE（解码还原）。

前者是整个系统的“压缩引擎”，它将两大视觉猛将 SAM-base 和 CLIP-large 结合起来：

SAM 负责细节“窗口注意力”，CLIP 负责整体“全局注意力”。中间还嵌入了一个 16× 卷积压缩模块，专门削减 token。

例如，一张 1024×1024 的图片，理论上要被切成 4096 块处理，现在被这压缩模块一处理，直接瘦身成几百个 token。

这样一来，既保留了清晰度，又不占用大量显存。

DeepSeek-OCR：以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态光学压缩文本压缩第4张

此外，它还支持多档分辨率模式：Tiny、Small、Base、Large，以及代号“Gundam（高达）”的动态模式。

你没听错，这个模型甚至取名都带点“中二魂”。

解码器部分则是 DeepSeek 的专长：MoE（混合专家）架构.

64 个专家中每次只激活 6 个，再加两个共享专家，实际算力只动用了约 5.7 亿参数，但性能堪比 30 亿模型。又快又省，堪称“节能灯中的战斗机”。

它的任务也不复杂，就是从那些压缩后的视觉 token 中，把文字“解码”回来。

整个过程有点像 OCR 的升级版，但这次是模型自己在“看图猜字”，而不是人类教它识字，而且猜得非常准。

DeepSeek-OCR：以视觉模态重塑文本压缩新纪元 DeepSeek-OCR 视觉模态光学压缩文本压缩第5张

...

云服务器免费服务器性价比服务器

本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543314.html