当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR:视觉压缩重塑大模型范式

「我对新的DeepSeek-OCR论文深感兴奋……或许更明智的做法是,LLM的所有输入都应是图像。即便偶然遇到纯文本输入,你或许更愿意先将其渲染,再输入。」

一夜之间,大模型的范式似乎被DeepSeek新推出的模型颠覆了。

昨日,全新模型DeepSeek-OCR突然开源。该模型能将1000字的文章压缩成100个视觉token,十倍压缩下准确率仍达97%,单个英伟达A100每天可处理20万页数据。

这种方法或许能解决大模型领域长期存在的长上下文效率问题,更重要的是,如果「看」文本而非「读」文本最终被证实为正确方向,大模型的范式将发生重要转变。

DeepSeek-OCR:视觉压缩重塑大模型范式 DeepSeek-OCR 视觉token 大模型 文本压缩 第1张

GitHub上,DeepSeek-OCR项目一夜收获超4000个Star。

作为开源小模型,DeepSeek-OCR迅速接受整个AI社区的检验,众多大佬看完论文后纷纷发表看法,兴奋之情溢于言表。

OpenAI联合创始成员、前特斯拉自动驾驶总监Andrej Karpathy表示,这是一个出色的OCR模型。

DeepSeek-OCR:视觉压缩重塑大模型范式 DeepSeek-OCR 视觉token 大模型 文本压缩 第2张

他强调,作为一个主要研究计算机视觉、偶尔涉足自然语言领域的人,他更感兴趣的是:对大型语言模型而言,像素是否比文本更适合作为输入?文本token在输入端是否浪费资源,甚至很糟糕?

或许更明智的做法是,LLM的所有输入都应是图像。即便偶然遇到纯文本输入,或许你更愿意先将其渲染,再输入:

  • 更多信息压缩(参见论文) => 更短的上下文窗口,更高效
  • 明显更为通用的信息流 => 不仅仅是文本,还包括粗体、彩色文本、任意图像
  • 轻松使用双向注意力处理输入,而非自回归注意力 - 功能更强大
  • 删除(输入端的)分词器!我已经吐槽过我有多讨厌分词器了。分词器丑陋、独立存在且非端到端。它“导入”了Unicode和字节编码的所有丑陋之处,继承了大量历史包袱及安全/越狱风险(如连续字节)。它让两个看似相同的字符在网络内部像两个完全不同的token。一个微笑的表情符号看起来像一个奇怪的token,而不是……一个真正的笑脸,包括像素等,以及它带来的所有迁移学习。分词器必须移除。

OCR只是众多有用的视觉-文本任务之一。文本-文本任务可转换为视觉-文本任务,反之则不行。

很多用户信息是图像,但解码器(智能助手的响应)仍是文本。如何真实输出像素……或者说,如果你想要输出像素,那就不那么明显了。

纽约大学助理教授谢赛宁也发推高度评价Karpathy的评论,他尤其共鸣于其中“作为一个主要研究计算机视觉、偶尔涉足自然语言领域的人”这一句。

DeepSeek-OCR:视觉压缩重塑大模型范式 DeepSeek-OCR 视觉token 大模型 文本压缩 第3张

正是谢赛宁首次将Transformer架构与扩散模型结合,提出扩散Transformer(DiT),为文生视频开辟新路径。

也有研究者对DeepSeek-OCR研究的潜在意义进行更引人入胜的解读。

DeepSeek-OCR:视觉压缩重塑大模型范式 DeepSeek-OCR 视觉token 大模型 文本压缩 第4张

Emanuel继续写道:传统上,在多模态大语言模型中,视觉token几乎像是事后添加的产物,或“外挂”在语言模型框架之上的功能。如果用可识别的图像像素形式表示文本,那么一万英文单词在多模态LLM中所占的空间,将远大于用文本token表示时的空间。

例如,那一万字的英文文本可能原本对应15,000个文本token,但转换为视觉token后可能变成30,000到60,000个视觉token。由此可见,视觉token的效率低得多,因此过去它们只适用于那些无法用文字有效表达的数据(如图像或视觉场景)。

但这篇论文的提出,颠覆了这一切

DeepSeek想出一种方法,使得视觉token的压缩效率比文本token高出10倍!

换句话说,原本需要10,000个单词的文本,现在理论上只需约1,500个经过特殊压缩的视觉token即可完整表示。

若思考人类大脑的运作方式,这并非完全出人意料。

毕竟,当我们回忆一本书的某部分时,往往以视觉方式定位:记得内容在书的哪一页、哪一侧、页面大致位置,说明我们的大脑使用某种视觉记忆表征机制。

但尚不清楚这种机制在LLM的下游认知能力中会如何表现。模型使用这些压缩后的视觉token时,是否还能像使用普通文本token那样进行智能推理?或者,这种方式会不会让模型变得不善于表达语言,因为它被迫更多以视觉方式思考?

无论如何,根据性能权衡,这可能成为一个极具潜力的新方向,用于大幅扩展模型的有效上下文长度(context size)。

尤其是与DeepSeek几周前发布的另一篇关于稀疏注意力(sparse attention)的论文结合使用,前景更令人兴奋。详情可参阅机器之心报道《刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA》。

他还提到:「据我们所知,谷歌也可能早就发现类似技术,这或许能解释为什么Gemini模型拥有如此巨大的上下文窗口,并在OCR任务上表现优异。当然,如果他们真的做到了,可能也不会公开说明——毕竟这会被视为核心商业机密。而DeepSeek的可贵之处在于:它选择完全开源,包括模型权重与方法细节。这意味着任何人都可以试验、验证并进一步探索这一突破。」

即使这些技巧可能让注意力机制的表达略微“有损”(lossy),但如果它能让前沿级LLM拥有一千万甚至两千万token级别的上下文窗口,那无疑是令人振奋的。

试想:你能把一家公司的所有关键内部文档都塞进提示词的前缀(prompt preamble)中并缓存到OpenAI系统里。之后只需添加具体问题或提示词无需搜索工具就能快速经济地完成查询。

或把整个代码库放入上下文中并缓存每次修改时只需追加相当于Git有差异的部分内容。

他还表示:「这让我想起著名物理学家Hans Bethe(汉斯·贝特)的故事——他以惊人记忆力著称能背下大量随机物理数据(如整个元素周期表、各种物质的沸点等)因此在思考与计算时几乎无需中断查阅资料。」

毫无疑问拥有大量与任务相关知识并能随时调用是极其强大的能力。而DeepSeek的这一方法似乎是一个聪明且可扩展的路径有望让模型的“工作记忆”容量提升十倍甚至更多。

在Hacker News等平台上DeepSeek-OCR也引发广泛热议。

Django Web框架联合创建者Simon Willison甚至成功尝试让Claude Code在英伟达Spark硬件上运行这个模型。整个过程仅使用4个提示词时间也只不过40分钟。

DeepSeek-OCR:视觉压缩重塑大模型范式 DeepSeek-OCR 视觉token 大模型 文本压缩 第5张

科技视频博主NiceKate AI成功将其部署到Mac上。

DeepSeek-OCR:视觉压缩重塑大模型范式 DeepSeek-OCR 视觉token 大模型 文本压缩 第6张

(注:由于篇幅限制和格式要求部分图片未完整展示但均已按要求添加alt属性)