DeepSeek OCR 作为一款OCR小型模型,其性能确实可圈可点,但外界对其的评价或许有所夸大。
知乎网友曾指出,即便与当前最优秀的几个OCR模型进行横向对比,DeepSeek OCR也并非位列最前沿。
在以下两个具体案例中,参数量达3B(30亿)的DeepSeek OCR在数学公式展开任务中未能识别出“极坐标”一词,且在表格结构识别上也出现了错误。相比之下,参数量仅为0.9B(9亿)的PaddleOCR-VL(源自百度飞桨开源项目)却表现更佳。
DeepSeek OCR在独创性方面也并非无懈可击。外界推测,谷歌Gemini支持百万级Token上下文可能早已应用了视觉压缩Token技术。而同一天由清华大学与智谱团队发布的、思路近乎相同的Glyph模型(其核心也是将长文本压缩为视觉Token作为模型输入),却似乎未引起同等深度的“延伸解读”。
DeepSeek的每一次技术发布都能吸引巨大关注。但仔细思量,这也在情理之中。
在中国,那些已然做大并垄断了某一盈利赛道的互联网巨头中,仍能怀揣对人类未来福祉的关切、持续探索前沿技术的例子,几乎难以寻觅。DeepSeek被美国同行描述为“实力深不可测”,其内在的价值观与组织形态,在中国企业界实属罕见的异类。
在梁文峰的引领下,DeepSeek资金充裕,周身洋溢着极致浪漫的技术理想主义气质。它开源最前沿、最具价值的模型训练细节,在V3和R1模型引发全球轰动后,几乎主动放弃了随之而来的巨大流量,也未仿效OpenAI去构建触手可及的AI商业帝国……这种不遵循常规“做大做强”路径,活在当下而更放眼未来,一言一行皆追逐高度不确定的AGI(通用人工智能)目标。在一个充斥跟风、内卷、模仿与金钱至上氛围的环境里,能诞生这样的公司,确实堪称“国运”的体现。
外行看热闹,内行看论文。回归技术本质,DeepSeek OCR的深层价值并非所谓的“真·无限上下文”,亦非在各类评测集或大模型竞技场中刷新了某项OCR记录,而在于其对「连续视觉表征压缩」的探索,隐隐指向一个终极追求——「世界模型」。
Karpathy在其评价中欲言又止的要点是:它将大模型的研究前沿焦点,从离散的语言Token,“重新转向”了连续视觉表征的视觉Token。
倘若将大脑视作一台生物计算机,Ilya(Sutskever)相信我们终将取得突破。人类思维最幽深精微之处,或许出乎意料地“大道至简”。
Ilya持有一个坚定信念:“如果你能高效地压缩信息,那你一定已经获得了知识,否则你无法压缩信息。当你实现了信息的高效压缩,you got to have some knowledge(你必定掌握了某些知识)”。
压缩通过识别模式与规律来高效表征信息,这与智能行为紧密相关。相当一部分研究人员认为,压缩可能是通用智能的基础,甚至其本身即等同于智能,这正是Ilya所坚信的「压缩即智能」。
然而,Ilya的观点或许只对了一半。相较于语言这类一维离散信息,语言的成功压缩催生了震撼世界的ChatGPT。而视觉作为更高维的连续信息,其端到端的压缩与统一表征提取,却异常艰难。
如今威力强大的各类预训练大语言模型(LLM),其底层原理高度统一:利用互联网上的海量语料训练出超大规模神经网络,这可视作一大套参数。当用户输入时,特定的网络节点参数将被激活参与计算,从而“预测概率最高的输出Token”。具体而言,用户的输入文本会通过Tokenization(分词)过程,被固定划分为词和符号(即Token)并转化为向量。这些输入向量将在超高维向量空间中进行模式匹配,即由激活的神经网络参数参与计算,推算出下一个概率最高的词。
用通俗的话解释LLM,就是依据模型参数和上下文来猜测下一个词。回顾大语言模型的发展历程,通用算法(Transformer)的发现使得规模化扩展真正可行。简单算法、超大数据与GPGPU算力的爆发三者结合,成功压缩了互联网上几乎全部的文本资料,打造出一台异常智能的“Token预测器”。
LLM以“Token by Token”的方式自回归输出,意味着每个Token都需要与前文进行一次“交互”计算。输入十万个Token,模型就需要进行十万乘以十万量级的百亿次“交互”计算。上下文输入越长,预测下一个词所需的计算量呈指数级增长。
再大的显存带宽与容量,也难以一次性消化计算过程中产生的天量中间矩阵,推理延迟会随之加剧。LLM近年来的创新,例如注意力层计算的稀疏化与优化(催生了MTP、NSA、DSA等技术),以及稠密FFN层的稀疏激活,还有超大规模MoE(混合专家)网络中的路由激活,本质上都是在解决计算效率层面的问题。
以DeepSeek为例,除R1模型作为开源模型首次公开了预训练加后训练强化学习方法,复现了O1推理思维链效果并引发轰动外,其几乎所有的创新都集中于改进注意力机制、激活参数计算与推理解码的效率,以及训练时如何降低硬件开销并提升数据通信可靠性。
DeepSeek OCR表面是一个OCR模型,实则也指向计算效率,试图实现对过长模型上下文输入的高效压缩。
DeepSeek OCR的核心是DeepEncoder,这是一个利用视觉Token对输入上下文信息进行编码的编码器。它实现了在9–10倍文本压缩下96%以上的OCR解码精度,在10–12倍压缩下约90%的精度,即使在20倍压缩下仍能保持约60%的精度。
当压缩比达到10倍时,几乎可以做到无损压缩。这意味着原本需要输入十万Token的模型上下文,经过视觉编码后仅需一万Token。
此外,DeepSeek论文指出,我们可以连续调节压缩率,在压缩率与识别精度之间进行平滑的权衡。关键在于,DeepSeek将这种动态视觉压缩与人类的记忆遗忘机制进行了类比。
DeepSeek提出了一种类生物遗忘机制的压缩策略:
近期上下文:保持高分辨率,Token消耗高,信息清晰;
远期上下文:逐步降低分辨率,Token减少,信息模糊;
这种机制模拟了人类记忆的自然衰减过程:
时间越久,记忆越模糊;
距离越远,视觉感知越弱;
两者都呈现出渐进式信息丢失的模式(如图所示)。
在论文中,DeepSeek阐释道,OCR工作代表了对视觉-文本压缩边界的初步探索,其核心是研究“解码N个文本Token需要多少个视觉Token”这一问题。初步结果令人振奋:
光学上下文压缩不仅是技术可行的,更是生物学合理的。它为长上下文建模提供了全新视角。DeepSeek相信,这一方向将成为未来LLM与VLM(视觉语言模型)研究的重要突破口。
DeepSeek-OCR在大约10倍压缩比下实现了接近无损的OCR压缩,在20倍压缩比下仍能保持60%的准确率。这些发现意味着:在多轮对话中,可对超过k轮的历史记录进行光学处理,实现10倍压缩效率;对陈旧上下文逐步缩小渲染图像,进一步减少Token消耗;模拟人类记忆的遗忘机制,越久远的内容,压缩率越高,图像越模糊,信息逐渐丢失。
在论文中,DeepSeek强调,光学上下文压缩仍是一个刚刚起步、潜力巨大的研究方向。DeepSeek-OCR不仅仅是一个常用且优秀的OCR工具,它本身也是一个极具实用价值的模型,具备大规模预训练数据生产能力,可作为LLM训练过程中不可或缺的助手。在实际应用中,该模型每天可生成数千万页级别的训练数据,显著提升了多模态数据构建的效率。
若以“生物计算机”视角观察人脑,可粗略概括为:它通过多模态、某种统一表征进行极为高效的信息压缩,从而实现对现实世界的建模与预测。
而LLM则是“通过语言单一模态对现实世界进行建模与预测”。
如果大语言模型能够导向AGI,那是否等同于人类仅通过语言便能理解一切,仅凭语言即可建模世界?但这其中存在一个明显缺陷:人类并没有LLM中Tokenization这种“后天而非先验”的分词器,Karpathy曾形容Tokenization的过程是丑陋且笨拙的。
用户的文本输入要变为AI“可读”的内容,需通过一个称为“Tokenizer”(分词器)的组件,将句子切割成一个个“词元”(Token)。例如,“Hello, world!”可能被切分为[Hello]、[,]、[world]、[!]四个词元。分词标准并非统一,不同的词表与分词器意味着各家模型拥有不同的Tokenization方法,这对模型的最终性能有一定影响。
LLM将文本输入转化为Token的分词过程是否是必不可少的?DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以仅用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原始内容,而且无需经过文本分词这一过程。
语言深度依赖于视觉经验与多模态基础,文字本身是对感知世界的二次抽象。为何我们的AI系统要绕过更原始、更丰富的表征层?当模型直接在像素层面理解文字时,它所习得的不只是语言,而是更加丰富、更深层次的学习机制。
正如前文所述,相较于语言这类一维离散信息,更高维且连续的视觉信息,其端到端的信息压缩、统一表征提取与预测,长期以来进展缓慢且困难重重。
三句话不离世界模型的Yann LeCun,曾在公开访谈中谈及处理连续视觉信息的极端困难性:
“一个典型的大语言模型大约在200亿到2万亿个Token上训练。Token大致相当于一个词。通常,一个Token用三个字节表示,200亿到2万亿个Token,总计约10^14字节,即1后面跟着14个零。这几乎是互联网上所有公开文本的总和。
一个人需要几十万年才能读完这些材料,这是海量信息。现在,我们来比较这个数据量:一个四岁孩子总计清醒约16000小时。每秒约有2MB信息通过视神经进入视觉皮层。每秒2MB,四年内通过视觉输入的数据量大约是10^14字节。四岁孩子‘看到’的数据量,等同于需要你40万年才能阅读的文本量。
这表明,仅依靠文本训练,我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界,而这异常困难。如果我们不用单词,而用视频帧,将这些帧转换为类似单词的Token,然后尝试训练系统预测视频中接下来会发生什么,这是行不通的。
我们或许无法预测文本中某个特定单词会出现的位置,但我们可以预测所有可能单词的概率分布。对于视频,我们做不到这一点。我们无法表示所有可能视频帧的概率分布。因此,那些在文本、DNA序列或蛋白质上极为有效的技术,在视频或其他自然信号上却不起作用。”
回过头看,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多么卓越的OCR工具,而在于它充当了一次“概念验证”。它用实验数据证明:AI的主要信息入口,可以从语言转向视觉,不仅效率更高,而且似乎更符合生物特性。
Karpathy还提出了一个关键洞察:
Vision→Text的任务空间,实际上完全包含了Text→Text的任务空间,任何文本都可以无损“渲染”成图像。但反过来,从图像到文本则会丢失大量信息。这种不对称性暗示了一个激进的方向:将所有输入统一为视觉模态,而输出保持文本不变。
这不仅仅是“文本到文本”任务变为“视觉到文本”任务,而是一个更为根本的转变。
如果输入端彻底转向像素,我们实际构建的,将不再是传统意义上的“大语言模型”,而是一个视觉条件下的文本生成系统。模型看到的,不再是固定划分的字符,而是更凌乱、更无序但信息更丰富的原始信号。沿着这条全新发展道路,我们似乎已能远远望见世界模型的轮廓。
再次审视DeepSeek在OCR论文中的总结:「这一范式将为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供全新的思路和广阔的研究空间」,其措辞谨慎而谦虚。
DeepSeek值得尊敬。
本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260117532.html