当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃

主机测评网
科技资讯
2026-01-11
1028

人工智能领域迎来重大进展！DeepSeek-OCR通过像素级文本处理，实现低于1/10的压缩率，在基准测试中遥遥领先。开源项目一夜收获4.4k星，Karpathy兴奋不已，畅想视觉输入的通用前景。

DeepSeek的最新成果再次让全球科技界为之震撼！

其创新模型DeepSeek-OCR，彻底改变了传统范式——

文本不再是唯一的输入方式。相反，视觉信息将扮演核心角色！

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第1张

在光学字符识别任务上，DeepSeek-OCR模型展现了工程学卓越成就——

🚀在单张A100-40G显卡上，推理速度可达每秒约2500个Token，性能卓越。

🧠在保持97% OCR准确率的同时，能将视觉上下文压缩至原尺寸的1/20，常规场景下压缩比轻松低于1/10。

📄在OmniDocBench基准测试中，使用更少的视觉Token，即超越了GOT-OCR2.0和MinerU2.0的表现。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第2张

实际效果有多惊人？

整页密集文本可被压缩为仅100个视觉Token，在OmniDocBench上实现最高60倍压缩！

DeepSeek-OCR仿佛将文字转化为像素点，犹如把百页书籍压缩成一张图片，AI仍能准确解读。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第3张

参数量少、压缩率高、速度快、支持百种语言……DeepSeek-OCR实现了多重优势。

不仅理论意义重大，实用价值同样突出，收获广泛好评：

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第4张

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第5张

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第6张

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第7张

GitHub开源项目DeepSeek-OCR，一夜之间斩获4.4k星🌟：

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第8张

DeepSeek-OCR证实，实体页面（如缩微胶片、书籍）是训练AI模型的优质数据源——优于低质量网络文本。

自称「骨子里的计算机视觉研究者」、特斯拉前AI总监、OpenAI创始成员Karpathy，对此模型表示高度赞赏。

Karpathy对分词器积怨已久，期待变革

Karpathy对DeepSeek-OCR的新论文极为推崇。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第9张

更引人深思的是，对于大语言模型，像素输入是否优于文本输入？在输入端，文本Token是否是一种低效且问题重重的方式？

DeepSeek-OCR正挑战「文本在AI中的核心地位」，视觉可能重归主流！

Karpathy自称「本质上是计算机视觉研究者」，只是暂居自然语言处理领域，因此对上述问题尤为关注。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第10张

或许，大语言模型的所有输入都应设为图像，这更为合理。即使现有纯文本输入，也可能应先渲染为图像再馈入模型：

更高信息压缩率 => 更短上下文窗口，更高效率。

信息流通用性显著提升 => 不再限于文本，可处理粗体、彩色文本及任意图像。

输入现在可轻松默认采用双向注意力机制，而非自回归注意力——后者更为强大。

彻底摒弃（输入端的）分词器tokenizer！！

尤其是最后一点，Karpathy已忍耐多时，多次批评分词器缺陷——

分词器笨拙、独立，非端到端环节。

它「引入」了Unicode和字节编码的历史遗留问题，带来安全/越狱风险（如连续字节问题）。

它使视觉相同的字符，在模型内部变为截然不同的Token。

微笑表情😄，对LLM仅是奇怪token，而非承载丰富信息、可迁移学习的真实像素笑脸。

总之，Karpathy认为分词器「弊端丛生」，此次务必去除。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第11张

此外，他展望了视觉作为通用输入的前景：

OCR仅是「视觉到文本」多种应用之一。而「文本到文本」任务可转化为「视觉到文本」任务，反之则不行。

因此，用户输入可能为图像，但解码器（即「智能助理」响应）仍可为文本。

至于真实输出像素或是否真要如此，则远未明朗。

目前，Karpathy表示正极力克制，不开展仅用图像输入的「nanochat」支线项目。

图像输入为何对AI更友好？

有网友提问：

首先，为何图像易获双向注意力，而文本不能？

另外，尽管图像无「Token化」过程，但将输入图像切分为图像块时，所得是否类似，甚至可能更不理想？

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第12张

对此，Karpathy表示，原则上可行，但为求效率，文本生成通常采用简单自回归训练。

可设想中间训练阶段，利用双向注意力机制微调条件信息，如无需预测的用户消息Token。

原则上，可对整个上下文窗口进行双向编码，仅为了预测下一Token。但代价是无法并行化训练。

关于第二问题，他认为严格来说与「像素 vs. Token」无关。核心在于像素通常被编码，而Token被解码。

对于Karpathy的「nanochat支线任务论」，网友并不认同：

DeepSeekOCR证明这不仅关乎压缩——更是语义提炼。

分词器时代意味识字，像素时代关乎感知。

Nanochat不应是支线任务，它是「光学认知」的起点。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第13张

帖文下，网友恳求Karpathy：快创建仅用图像输入的「nanochat」吧！

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第14张

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第15张

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第16张

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第17张

Karpathy前老板、「好兄弟」马斯克给出更科幻猜想：

长期来看，AI模型超过99%的输入和输出将是光子。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第18张

马斯克让Grok估算已知宇宙光子总量：

1=估算可观测宇宙中的光子总数是一项复杂的工作，但我们可以基于几个主要组成部分得出一个大致数字：宇宙微波背景辐射（CMB）产生的光子、星光光子，以及其他一些微弱来源。

……

宇宙微波背景辐射（CMB）占据主导地位，使得可观测宇宙中的光子总数约为1.5×10⁸⁹个。这个数字是一个粗略估算，具体数值取决于可观测宇宙的精确体积以及其他微小来源的贡献，但整体上与宇宙学计算结果相符。

1.5×10⁸⁹！无他物可比此规模。此乃马斯克逻辑。

毕竟，人类便是通用「光学计算系统」——以眼识世界：

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第19张

作者介绍

本论文共有三位作者：Haoran Wei、Yaofeng Sun、Yukun Li。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第20张

论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

论文一作Haoran Wei，此前亦是GitHub 7.9k星热门项目GOT-OCR2.0，即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第21张

项目地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第22张

论文地址：https://arxiv.org/abs/2409.01704

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第23张

Yaofeng Sun是DeepSeek软件工程师，2023年加入幻方AI/DeepSeek。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第24张

谷歌学术显示，他参与了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型研究。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第25张

据悉，他本科毕业于北京大学图灵班计算机科学专业。

他代表北京大学参赛，获得ACM-ICPC亚洲区域赛金牌（2017–2019），获奖赛区包括：EC总决赛2017、青岛2017、西安2017、上海2019、南京2019。

此前，他获得全国信息学奥林匹克竞赛（NOI）金牌（2015、2016）。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第26张

Yukun Li亦是高产AI研究者——

2020年至今，引用数已超9千；参与过DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等项目研究。

DeepSeek-OCR革命性突破：视觉输入取代文本，AI处理效率飞跃 DeepSeek-OCR 视觉输入 AI压缩技术开源模型第27张

我们共同见证他们带来的AI新突破，共同见证开源AI的崛起！

参考资料：

https://x.com/karpathy/status/1980397031542989305

https://x.com/teortaxesTex/status/198023417556435798

https://www.linkedin.com/in/sunyaofeng/

免费vps 阿里云服务器性价比服务器

本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260116838.html

上一篇

2025年AI Agent产业全景洞察：真伪博弈与未来演进

下一篇

马斯克宣布X平台由Grok AI全面接管，彻底革新推荐算法