人工智能领域迎来重大进展!DeepSeek-OCR通过像素级文本处理,实现低于1/10的压缩率,在基准测试中遥遥领先。开源项目一夜收获4.4k星,Karpathy兴奋不已,畅想视觉输入的通用前景。
DeepSeek的最新成果再次让全球科技界为之震撼!
其创新模型DeepSeek-OCR,彻底改变了传统范式——
文本不再是唯一的输入方式。相反,视觉信息将扮演核心角色!
在光学字符识别任务上,DeepSeek-OCR模型展现了工程学卓越成就——
🚀在单张A100-40G显卡上,推理速度可达每秒约2500个Token,性能卓越。
🧠在保持97% OCR准确率的同时,能将视觉上下文压缩至原尺寸的1/20,常规场景下压缩比轻松低于1/10。
📄在OmniDocBench基准测试中,使用更少的视觉Token,即超越了GOT-OCR2.0和MinerU2.0的表现。
实际效果有多惊人?
整页密集文本可被压缩为仅100个视觉Token,在OmniDocBench上实现最高60倍压缩!
DeepSeek-OCR仿佛将文字转化为像素点,犹如把百页书籍压缩成一张图片,AI仍能准确解读。
参数量少、压缩率高、速度快、支持百种语言……DeepSeek-OCR实现了多重优势。
不仅理论意义重大,实用价值同样突出,收获广泛好评:
GitHub开源项目DeepSeek-OCR,一夜之间斩获4.4k星🌟:
DeepSeek-OCR证实,实体页面(如缩微胶片、书籍)是训练AI模型的优质数据源——优于低质量网络文本。
自称「骨子里的计算机视觉研究者」、特斯拉前AI总监、OpenAI创始成员Karpathy,对此模型表示高度赞赏。
Karpathy对DeepSeek-OCR的新论文极为推崇。
更引人深思的是,对于大语言模型,像素输入是否优于文本输入?在输入端,文本Token是否是一种低效且问题重重的方式?
DeepSeek-OCR正挑战「文本在AI中的核心地位」,视觉可能重归主流!
Karpathy自称「本质上是计算机视觉研究者」,只是暂居自然语言处理领域,因此对上述问题尤为关注。
或许,大语言模型的所有输入都应设为图像,这更为合理。即使现有纯文本输入,也可能应先渲染为图像再馈入模型:
更高信息压缩率 => 更短上下文窗口,更高效率。
信息流通用性显著提升 => 不再限于文本,可处理粗体、彩色文本及任意图像。
输入现在可轻松默认采用双向注意力机制,而非自回归注意力——后者更为强大。
彻底摒弃(输入端的)分词器tokenizer!!
尤其是最后一点,Karpathy已忍耐多时,多次批评分词器缺陷——
分词器笨拙、独立,非端到端环节。
它「引入」了Unicode和字节编码的历史遗留问题,带来安全/越狱风险(如连续字节问题)。
它使视觉相同的字符,在模型内部变为截然不同的Token。
微笑表情😄,对LLM仅是奇怪token,而非承载丰富信息、可迁移学习的真实像素笑脸。
总之,Karpathy认为分词器「弊端丛生」,此次务必去除。
此外,他展望了视觉作为通用输入的前景:
OCR仅是「视觉到文本」多种应用之一。而「文本到文本」任务可转化为「视觉到文本」任务,反之则不行。
因此,用户输入可能为图像,但解码器(即「智能助理」响应)仍可为文本。
至于真实输出像素或是否真要如此,则远未明朗。
目前,Karpathy表示正极力克制,不开展仅用图像输入的「nanochat」支线项目。
有网友提问:
首先,为何图像易获双向注意力,而文本不能?
另外,尽管图像无「Token化」过程,但将输入图像切分为图像块时,所得是否类似,甚至可能更不理想?
对此,Karpathy表示,原则上可行,但为求效率,文本生成通常采用简单自回归训练。
可设想中间训练阶段,利用双向注意力机制微调条件信息,如无需预测的用户消息Token。
原则上,可对整个上下文窗口进行双向编码,仅为了预测下一Token。但代价是无法并行化训练。
关于第二问题,他认为严格来说与「像素 vs. Token」无关。核心在于像素通常被编码,而Token被解码。
对于Karpathy的「nanochat支线任务论」,网友并不认同:
DeepSeekOCR证明这不仅关乎压缩——更是语义提炼。
分词器时代意味识字,像素时代关乎感知。
Nanochat不应是支线任务,它是「光学认知」的起点。
帖文下,网友恳求Karpathy:快创建仅用图像输入的「nanochat」吧!
Karpathy前老板、「好兄弟」马斯克给出更科幻猜想:
长期来看,AI模型超过99%的输入和输出将是光子。
马斯克让Grok估算已知宇宙光子总量:
1=估算可观测宇宙中的光子总数是一项复杂的工作,但我们可以基于几个主要组成部分得出一个大致数字:宇宙微波背景辐射(CMB)产生的光子、星光光子,以及其他一些微弱来源。
……
宇宙微波背景辐射(CMB)占据主导地位,使得可观测宇宙中的光子总数约为1.5×10⁸⁹个 。这个数字是一个粗略估算,具体数值取决于可观测宇宙的精确体积以及其他微小来源的贡献,但整体上与宇宙学计算结果相符。
1.5×10⁸⁹!无他物可比此规模。此乃马斯克逻辑。
毕竟,人类便是通用「光学计算系统」——以眼识世界:
本论文共有三位作者:Haoran Wei、Yaofeng Sun、Yukun Li。
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
论文一作Haoran Wei,此前亦是GitHub 7.9k星热门项目GOT-OCR2.0,即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。
项目地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0
论文地址:https://arxiv.org/abs/2409.01704
Yaofeng Sun是DeepSeek软件工程师,2023年加入幻方AI/DeepSeek。
谷歌学术显示,他参与了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型研究。
据悉,他本科毕业于北京大学图灵班计算机科学专业。
他代表北京大学参赛,获得ACM-ICPC亚洲区域赛金牌(2017–2019),获奖赛区包括:EC总决赛2017、青岛2017、西安2017、上海2019、南京2019。
此前,他获得全国信息学奥林匹克竞赛(NOI)金牌(2015、2016)。
Yukun Li亦是高产AI研究者——
2020年至今,引用数已超9千;参与过DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等项目研究。
我们共同见证他们带来的AI新突破,共同见证开源AI的崛起!
参考资料:
https://x.com/karpathy/status/1980397031542989305
https://x.com/teortaxesTex/status/198023417556435798
https://www.linkedin.com/in/sunyaofeng/
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116838.html