「我非常欣赏 DeepSeek-OCR 的最新论文…… 或许对于大型语言模型而言,像素作为输入媒介比纯文本更为优越。即便遇到纯文本输入,将其渲染为图像再进行处理可能是更佳选择。」
近期,DeepSeek 推出的创新模型正在重塑人工智能领域的传统框架。
此前,DeepSeek-OCR 模型突然宣布开源。该模型采用独特的视觉处理流程,可将千字文章压缩为仅百个视觉 token,在十倍压缩率下仍保持97%的准确度,单块英伟达 A100 显卡每日能处理高达20万页数据。
该方法有望解决当前大模型在处理长上下文时面临的效率瓶颈。更深远的意义在于,若「视觉化文本处理」被证实为正确方向,整个大模型的基础架构或将迎来根本性变革。
在 GitHub 平台上,DeepSeek-OCR 项目发布仅一晚便收获超过4000个星标,彰显其受关注程度。
作为开源轻量模型,DeepSeek-OCR 迅速接受了全球AI社区的全面验证。众多行业专家研读论文后纷纷表达高度赞誉,展现出对该技术的浓厚兴趣。
OpenAI 联合创始人之一、前特斯拉自动驾驶主管 Andrej Karpathy 指出,该模型在OCR任务上表现卓越。
他进一步阐述,作为一名本质专注于计算机视觉、暂时涉足自然语言处理的研究者,他更关注的核心问题是:对大语言模型来说,像素是否比文本更具输入优势?文本 token 在输入阶段是否资源浪费,甚至存在缺陷?
或许更合理的架构是让LLM完全接收图像输入。即使原始数据为纯文本,也可先转换为渲染图像再输入系统:
OCR仅是视觉-文本任务的一个应用场景。文本-文本任务可转换为视觉-文本任务,但反向转换则无法实现。
大量用户数据以图像形式存在,但解码器(助手响应)仍输出文本。如何实现真正的像素级输出……或者说,若需输出像素,则需重新设计响应机制。
纽约大学助理教授谢赛宁亦通过社交媒体高度评价Karpathy的见解,对其「本质研究计算机视觉,暂涉自然语言领域」的表述深感认同。
谢赛宁曾首创将Transformer架构与扩散模型融合,提出扩散Transformer(DiT),为文本生成视频开辟了新路径。
另有研究者对DeepSeek-OCR的潜在影响进行了更深入解读。
Emanuel 补充道:传统多模态大语言模型中,视觉token常被视为附加功能,或「嫁接」于语言模型框架之上。若以可识别图像像素表示文本,一万英文单词在多模态LLM中占用的空间将远超文本token表示。
例如,一万字英文原本对应约15,000个文本token,但转换为视觉token后可能增至30,000到60,000个。可见视觉token效率较低,故以往仅用于无法用文字充分表达的数据(如图像或视觉场景)。
但此篇论文的发表,彻底改变了这一现状。
DeepSeek 开发出一种方法,使视觉token的压缩效率比文本token高出十倍!
换言之,原本需10,000单词的文本,现仅需约1,500个经特殊压缩的视觉token即可完整表征。
若类比人类大脑运作方式,此发现并非完全意外。
人类回忆书籍内容时,常依赖视觉定位:记忆内容所在页码、页面位置及版式,表明大脑采用某种视觉记忆表征机制。
然而,此种机制在LLM的下游认知能力中如何表现尚不明确。模型使用压缩视觉token时,能否保持与文本token相当的推理能力?抑或会导致模型语言表达能力下降,因其被迫更多依赖视觉思维方式?
无论如何,可以预见:基于实际性能权衡,这可能成为显著扩展模型有效上下文长度的新途径。
尤其是与DeepSeek数周前发布的稀疏注意力论文结合后,前景更为广阔。相关技术细节可参考机器之心报道《刚刚,DeepSeek 开源 V3.2-Exp,公开新稀疏注意力机制 DSA》。
他还提及:「据我们所知,谷歌可能早已掌握类似技术,这或许解释了Gemini模型为何拥有巨大上下文窗口且在OCR任务中表现优异。当然,若果真如此,他们未必公开说明——这属于核心商业机密。DeepSeek 的卓越之处在于完全开源模型权重与方法细节,允许任何人实验验证并深入探索此突破。」
即便这些技术可能使注意力机制略有「损失」,但若能让前沿LLM具备千万乃至两千万token级上下文窗口,无疑令人振奋。
设想:将公司所有核心内部文档嵌入提示词前缀并缓存至系统,随后仅需添加具体问题或指令,即可快速经济地完成查询,无需额外搜索工具。
或可将整个代码库纳入上下文并缓存,每次修改仅需追加类似Git差异的部分内容。
他进一步比喻:「这令人联想到著名物理学家Hans Bethe的故事——他以惊人记忆力著称,能背诵大量随机物理数据(如完整元素周期表、各种物质沸点等),因此在思考与计算时极少中断查阅资料。」
毋庸置疑,拥有大量任务相关知识并实时调用的能力极为强大。DeepSeek 此法似乎为模型「工作记忆」容量提升十倍以上提供了智能且可扩展的路径。
在Hacker News等平台,DeepSeek-OCR 亦引发广泛讨论。
Django Web 框架联合创建者 Simon Willison 甚至成功让 Claude Code 在英伟达 Spark 硬件上运行此模型。整个过程仅用4个提示词,耗时约40分钟。
科技视频播主 NiceKate AI 成功将其部署至 Mac 设备。
但需注意,不少研究者指出,DeepSeek 新模型在工程上成就显著,但其核心方法并非首创。
早在2022年,哥本哈根大学等机构论文《Language Modelling with Pixels》已提出类似思想。其中介绍了基于像素的语言编码器(Pixel-based Encoder of Language),简称PIXEL,旨在解决语言模型的词汇瓶颈。
PIXEL 架构概况,来自论文《Language Modelling with Pixels》,arXiv:2207.06991
具体而言,PIXEL 是一种预训练语言模型,将文本渲染为图像,从而基于字形相似性或像素共激活模式实现跨语言表示迁移。与传统语言模型预测token分布不同,PIXEL 训练目标为重建被遮盖图像块的像素。
此后多项研究对此思路进行了发展与改进,主要包括:
无论如何,DeepSeek-OCR 显然是一款实用型模型,已有众多先行者开始应用:
当然,批评声音依然存在。例如现任Meta研究员、前OpenAI及DeepMind成员Lucas Beyer直言DeepSeek-OCR方法缺乏渐进性,与人类认知模式不符。
最后,在DeepSeek-OCR的热议中,部分外国研究者注意到论文中引人深思的Prompt示例,正探讨「先天下之忧而忧,后天下之乐而乐」的哲学内涵。
无论对AI还是外国学者而言,准确理解此句深意确具挑战。
您是否已体验DeepSeek-OCR模型?如何看待其「视觉化压缩一切」的研究理念?
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116829.html