当前位置：首页 > 科技资讯 > 正文

DeepSeek OCR：视觉压缩的终极追求与智能革命

主机测评网
科技资讯
2026-05-07
411

DeepSeek OCR，一款备受瞩目的OCR小模型，但似乎被过度吹嘘了。

有知乎网友指出，即便将其与最优秀的OCR模型横向比较，它也不是其中的佼佼者。

DeepSeek OCR：视觉压缩的终极追求与智能革命 OCR 视觉压缩世界模型 AGI 第1张

在以下两个案例中，3B（30亿参数）大小的DeepSeek OCR在数学公式展开中未能识别出“极坐标”，且表格结构识别错误。相比之下，仅有0.9B（9亿参数）的PaddleOCR-VL（来自百度飞桨开源）表现更佳。

DeepSeek OCR：视觉压缩的终极追求与智能革命 OCR 视觉压缩世界模型 AGI 第2张

DeepSeek OCR：视觉压缩的终极追求与智能革命 OCR 视觉压缩世界模型 AGI 第3张

DeepSeek OCR的独创性也值得商榷。有猜测认为，谷歌Gemini可能早已采用了视觉压缩Token，而同一天发布的Glyph（由清华大学和智谱团队联合推出）似乎并未引起广泛关注。

尽管每次亮相都能吸引大量关注，但DeepSeek的成就并非偶然。

在中国，能如DeepSeek这般，在垄断了赚钱赛道后还坚持探索前沿技术的互联网巨头，实属罕见。美国同行称其为“实力深不可测”，其价值观和组织形态更是中国企业中的异类。

梁文峰掌管的DeepSeek资金充裕，技术理想主义色彩浓厚。它开源了最前沿、最有价值的模型训练细节，V3和R1引发全球轰动后，却几乎主动放弃了巨大流量，也不去构建AI商业帝国。这种“不按常理出牌”的做法，追求的是高度不确定的AGI。

外行看热闹，内行看Paper。DeepSeek OCR的深层价值并非在于其“真·无限上下文”或刷新了某些评测集的记录，而在于其探索“连续视觉表征压缩”的终极追求——即“世界模型”。

Karpathy在评价中未明确提及的一点是：将大模型的前沿焦点从离散的语言Token“重新转向”了连续视觉表征的视觉Token。

压缩即智能

如果把大脑比作一台生物计算机，Ilya认为我们将突破极限。人类思维最幽暗深微之处，或许出奇地“大道至简”。

Ilya有个信念：“如果你能有效压缩信息，你就已经获得了知识。否则，你无法压缩信息。”

DeepSeek OCR：视觉压缩的终极追求与智能革命 OCR 视觉压缩世界模型 AGI 第4张

压缩通过识别模式和规律高效表征信息，与智能行为密切相关。许多研究人员认为，压缩可能是通用智能的基础，甚至等同于智能。

Ilya可能只说对了一半。相比语言这种一维的离散信息，语言的成功压缩催生了ChatGPT。而视觉作为更高维的连续信息，端到端的压缩和统一表征提取却异常困难。

如今强大的各类预训练大语言模型，在底层原理上高度统一：使用互联网上庞大的语料训练出超大规模神经网络。用户输入时，会激活固定的网络节点参数参与计算，从而“预测最大概率的输出Token”。具体过程中，用户的输入文本会被Tokenization固定划分后转化为向量，这些输入向量会在超高维的向量空间进行模式匹配。

用大白话解释LLM，就是根据模型参数和上下文去猜测下一个词。回顾大语言模型的发展，通用算法的发现、Transformer架构的引入以及超大数据和GPGPU算力的暴涨，共同推动了这一领域的成功。

LLM的输出是“Token by Token”，自回归方式意味着每个Token都要与前文“交互”一次。输入十万个Token，模型就要进行百亿次“交互”计算。输入越长的上下文，预测下一个词所需的计算量呈指数级增长。

尽管有MTP、NSA、DSA等创新技术试图解决计算层面的问题，但再大的显存带宽和容量也无法一次性处理天量的中间矩阵。DeepSeek的创新集中在改进注意力机制、激活参数计算和推理解码的高效性等方面。

DeepSeek OCR表面上是OCR模型，实际上指向了计算效率，尝试实现过长上下文的高效压缩。

其核心是DeepEncoder，一个用视觉Token编码输入上下文信息的编码器。它实现了在9–10倍文本压缩下保持96%+的OCR解码精度；在10–12倍压缩下保持约90%的精度；在20倍压缩下仍保持约60%的精度。

在压缩比达到10倍时，几乎可以做到无损。这意味着原来需要十万Token的模型上下文现在只需一万Token。

世界模型的「轮廓」

人脑若以“生物计算机”视角观察，可以概括为：它以多模态、某种统一表征进行极为高效的信息压缩，实现对现实世界建模和预测。

LLM则是“通过语言单一模态对现实世界建模和预测”。

如果大语言模型能导向AGI，是否意味着人类是通过语言理解一切？但这里存在一个明显Bug：人类并没有LLM Tokenization这种“后天而非先验”的分词器。Karpathy形容Tokenization的过程是丑陋且笨拙的。

“用户的文本输入变成AI‘可读’的内容是通过一个叫‘Tokenizer’（分词器）的东西将句子切成一个个‘词元’。不同的词表和分词器意味着不同的Tokenization方法。”

LLM文本输入转化为Token的分词过程是否必不可少？而DeepSeek-OCR这篇论文提供了一个佐证：它证明了AI可以仅用100个“视觉词元”就高精度地“解压缩”出包含1000个“文本词元”的原文内容且无需文本分词过程。

“语言深度依赖视觉经验和多模态基础。为什么我们的AI系统要绕过更原始、更丰富的表征层？当模型直接在像素层面理解文字时它看到的不只是语言而是习得了更加丰富、更加深层的学习机制。”

性价比vps 免费vps

本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543379.html

DeepSeek OCR：视觉压缩的终极追求与智能革命

压缩即智能

世界模型的「轮廓」

Transformer之父呼吁：放下KPI，重拾好奇心

六座车市场崛起：从鸡肋到蓝海，科技配置引领新风尚

DeepSeek OCR：视觉压缩的终极追求与智能革命

压缩即智能

世界模型的「轮廓」

Transformer之父呼吁：放下KPI，重拾好奇心

六座车市场崛起：从鸡肋到蓝海，科技配置引领新风尚

相关文章