当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃

人工智能领域迎来重大进展!DeepSeek-OCR通过像素级文本处理,实现低于1/10的压缩率,在基准测试中遥遥领先。开源项目一夜收获4.4k星,Karpathy兴奋不已,畅想视觉输入的通用前景。

DeepSeek的最新成果再次让全球科技界为之震撼!

其创新模型DeepSeek-OCR,彻底改变了传统范式——

文本不再是唯一的输入方式。相反,视觉信息将扮演核心角色!

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第1张

在光学字符识别任务上,DeepSeek-OCR模型展现了工程学卓越成就——

🚀在单张A100-40G显卡上,推理速度可达每秒约2500个Token,性能卓越。

🧠在保持97% OCR准确率的同时,能将视觉上下文压缩至原尺寸的1/20,常规场景下压缩比轻松低于1/10

📄在OmniDocBench基准测试中,使用更少的视觉Token,即超越了GOT-OCR2.0和MinerU2.0的表现。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第2张

实际效果有多惊人?

整页密集文本可被压缩为仅100个视觉Token,在OmniDocBench上实现最高60倍压缩!

DeepSeek-OCR仿佛将文字转化为像素点,犹如把百页书籍压缩成一张图片,AI仍能准确解读。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第3张

参数量少、压缩率高、速度快、支持百种语言……DeepSeek-OCR实现了多重优势。

不仅理论意义重大,实用价值同样突出,收获广泛好评:

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第4张

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第5张

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第6张

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第7张

GitHub开源项目DeepSeek-OCR,一夜之间斩获4.4k星🌟:

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第8张

DeepSeek-OCR证实,实体页面(如缩微胶片、书籍)是训练AI模型的优质数据源——优于低质量网络文本。

自称「骨子里的计算机视觉研究者」、特斯拉前AI总监、OpenAI创始成员Karpathy,对此模型表示高度赞赏。

Karpathy对分词器积怨已久,期待变革

Karpathy对DeepSeek-OCR的新论文极为推崇。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第9张

更引人深思的是,对于大语言模型,像素输入是否优于文本输入?在输入端,文本Token是否是一种低效且问题重重的方式?

DeepSeek-OCR正挑战「文本在AI中的核心地位」,视觉可能重归主流!

Karpathy自称「本质上是计算机视觉研究者」,只是暂居自然语言处理领域,因此对上述问题尤为关注。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第10张

或许,大语言模型的所有输入都应设为图像,这更为合理。即使现有纯文本输入,也可能应先渲染为图像再馈入模型:

更高信息压缩率 => 更短上下文窗口,更高效率。

信息流通用性显著提升 => 不再限于文本,可处理粗体、彩色文本及任意图像。

输入现在可轻松默认采用双向注意力机制,而非自回归注意力——后者更为强大。

彻底摒弃(输入端的)分词器tokenizer!!

尤其是最后一点,Karpathy已忍耐多时,多次批评分词器缺陷——

分词器笨拙、独立,非端到端环节。  

它「引入」了Unicode和字节编码的历史遗留问题,带来安全/越狱风险(如连续字节问题)。  

它使视觉相同的字符,在模型内部变为截然不同的Token。

微笑表情😄,对LLM仅是奇怪token,而非承载丰富信息、可迁移学习的真实像素笑脸。

总之,Karpathy认为分词器「弊端丛生」,此次务必去除。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第11张

此外,他展望了视觉作为通用输入的前景:

OCR仅是「视觉到文本」多种应用之一。而「文本到文本」任务可转化为「视觉到文本」任务,反之则不行。

因此,用户输入可能为图像,但解码器(即「智能助理」响应)仍可为文本。

至于真实输出像素或是否真要如此,则远未明朗。

目前,Karpathy表示正极力克制,不开展仅用图像输入的「nanochat」支线项目。

图像输入为何对AI更友好?

有网友提问:

首先,为何图像易获双向注意力,而文本不能?  

另外,尽管图像无「Token化」过程,但将输入图像切分为图像块时,所得是否类似,甚至可能更不理想?

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第12张

对此,Karpathy表示,原则上可行,但为求效率,文本生成通常采用简单自回归训练。

可设想中间训练阶段,利用双向注意力机制微调条件信息,如无需预测的用户消息Token。

原则上,可对整个上下文窗口进行双向编码,仅为了预测下一Token。但代价是无法并行化训练。

关于第二问题,他认为严格来说与「像素 vs. Token」无关。核心在于像素通常被编码,而Token被解码。

对于Karpathy的「nanochat支线任务论」,网友并不认同:

DeepSeekOCR证明这不仅关乎压缩——更是语义提炼。  

分词器时代意味识字,像素时代关乎感知。  

Nanochat不应是支线任务,它是「光学认知」的起点。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第13张

帖文下,网友恳求Karpathy:快创建仅用图像输入的「nanochat」吧!

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第14张

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第15张

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第16张

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第17张

Karpathy前老板、「好兄弟」马斯克给出更科幻猜想:

长期来看,AI模型超过99%的输入和输出将是光子。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第18张

马斯克让Grok估算已知宇宙光子总量:

1=估算可观测宇宙中的光子总数是一项复杂的工作,但我们可以基于几个主要组成部分得出一个大致数字:宇宙微波背景辐射(CMB)产生的光子、星光光子,以及其他一些微弱来源。 

 ……  

宇宙微波背景辐射(CMB)占据主导地位,使得可观测宇宙中的光子总数约为1.5×10⁸⁹个  。这个数字是一个粗略估算,具体数值取决于可观测宇宙的精确体积以及其他微小来源的贡献,但整体上与宇宙学计算结果相符。

1.5×10⁸⁹!无他物可比此规模。此乃马斯克逻辑。

毕竟,人类便是通用「光学计算系统」——以眼识世界:

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第19张

作者介绍

本论文共有三位作者:Haoran Wei、Yaofeng Sun、Yukun Li。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第20张

论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

论文一作Haoran Wei,此前亦是GitHub 7.9k星热门项目GOT-OCR2.0,即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第21张

项目地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第22张

论文地址:https://arxiv.org/abs/2409.01704

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第23张

Yaofeng Sun是DeepSeek软件工程师,2023年加入幻方AI/DeepSeek。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第24张

谷歌学术显示,他参与了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型研究。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第25张

据悉,他本科毕业于北京大学图灵班计算机科学专业。

他代表北京大学参赛,获得ACM-ICPC亚洲区域赛金牌(2017–2019),获奖赛区包括:EC总决赛2017、青岛2017、西安2017、上海2019、南京2019。

此前,他获得全国信息学奥林匹克竞赛(NOI)金牌(2015、2016)。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第26张

Yukun Li亦是高产AI研究者——

2020年至今,引用数已超9千;参与过DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等项目研究。

DeepSeek-OCR革命性突破:视觉输入取代文本,AI处理效率飞跃 DeepSeek-OCR  视觉输入 AI压缩技术 开源模型 第27张

我们共同见证他们带来的AI新突破,共同见证开源AI的崛起!

参考资料: 

https://x.com/karpathy/status/1980397031542989305 

https://x.com/teortaxesTex/status/198023417556435798 

https://www.linkedin.com/in/sunyaofeng/