当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式

主机测评网
科技资讯
2026-01-11
799

「我非常欣赏 DeepSeek-OCR 的最新论文…… 或许对于大型语言模型而言，像素作为输入媒介比纯文本更为优越。即便遇到纯文本输入，将其渲染为图像再进行处理可能是更佳选择。」

近期，DeepSeek 推出的创新模型正在重塑人工智能领域的传统框架。

此前，DeepSeek-OCR 模型突然宣布开源。该模型采用独特的视觉处理流程，可将千字文章压缩为仅百个视觉 token，在十倍压缩率下仍保持97%的准确度，单块英伟达 A100 显卡每日能处理高达20万页数据。

该方法有望解决当前大模型在处理长上下文时面临的效率瓶颈。更深远的意义在于，若「视觉化文本处理」被证实为正确方向，整个大模型的基础架构或将迎来根本性变革。

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第1张

在 GitHub 平台上，DeepSeek-OCR 项目发布仅一晚便收获超过4000个星标，彰显其受关注程度。

作为开源轻量模型，DeepSeek-OCR 迅速接受了全球AI社区的全面验证。众多行业专家研读论文后纷纷表达高度赞誉，展现出对该技术的浓厚兴趣。

OpenAI 联合创始人之一、前特斯拉自动驾驶主管 Andrej Karpathy 指出，该模型在OCR任务上表现卓越。

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第2张

他进一步阐述，作为一名本质专注于计算机视觉、暂时涉足自然语言处理的研究者，他更关注的核心问题是：对大语言模型来说，像素是否比文本更具输入优势？文本 token 在输入阶段是否资源浪费，甚至存在缺陷？

或许更合理的架构是让LLM完全接收图像输入。即使原始数据为纯文本，也可先转换为渲染图像再输入系统：

更高信息密度（参见论文数据） => 缩短上下文窗口，提升处理效率
显著扩展信息承载范围 => 不仅支持文本，还可处理加粗、彩色文本及任意图像内容
天然支持双向注意力机制处理输入，而非仅限自回归注意力——功能更为强大全面
彻底消除输入端的分词器！分词器存在诸多局限：结构冗余、非端到端设计。它继承了Unicode和字节编码的历史遗留问题，带来安全漏洞风险（例如连续字节攻击）。它可能导致两个视觉相同的字符在模型内部被识别为完全不同token。表情符号等符号被处理为怪异token，而非具有像素特征的视觉实体。分词器必须被革新。

OCR仅是视觉-文本任务的一个应用场景。文本-文本任务可转换为视觉-文本任务，但反向转换则无法实现。

大量用户数据以图像形式存在，但解码器（助手响应）仍输出文本。如何实现真正的像素级输出……或者说，若需输出像素，则需重新设计响应机制。

纽约大学助理教授谢赛宁亦通过社交媒体高度评价Karpathy的见解，对其「本质研究计算机视觉，暂涉自然语言领域」的表述深感认同。

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第3张

谢赛宁曾首创将Transformer架构与扩散模型融合，提出扩散Transformer（DiT），为文本生成视频开辟了新路径。

另有研究者对DeepSeek-OCR的潜在影响进行了更深入解读。

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第4张

Emanuel 补充道：传统多模态大语言模型中，视觉token常被视为附加功能，或「嫁接」于语言模型框架之上。若以可识别图像像素表示文本，一万英文单词在多模态LLM中占用的空间将远超文本token表示。

例如，一万字英文原本对应约15,000个文本token，但转换为视觉token后可能增至30,000到60,000个。可见视觉token效率较低，故以往仅用于无法用文字充分表达的数据（如图像或视觉场景）。

但此篇论文的发表，彻底改变了这一现状。

DeepSeek 开发出一种方法，使视觉token的压缩效率比文本token高出十倍！

换言之，原本需10,000单词的文本，现仅需约1,500个经特殊压缩的视觉token即可完整表征。

若类比人类大脑运作方式，此发现并非完全意外。

人类回忆书籍内容时，常依赖视觉定位：记忆内容所在页码、页面位置及版式，表明大脑采用某种视觉记忆表征机制。

然而，此种机制在LLM的下游认知能力中如何表现尚不明确。模型使用压缩视觉token时，能否保持与文本token相当的推理能力？抑或会导致模型语言表达能力下降，因其被迫更多依赖视觉思维方式？

无论如何，可以预见：基于实际性能权衡，这可能成为显著扩展模型有效上下文长度的新途径。

尤其是与DeepSeek数周前发布的稀疏注意力论文结合后，前景更为广阔。相关技术细节可参考机器之心报道《刚刚，DeepSeek 开源 V3.2-Exp，公开新稀疏注意力机制 DSA》。

他还提及：「据我们所知，谷歌可能早已掌握类似技术，这或许解释了Gemini模型为何拥有巨大上下文窗口且在OCR任务中表现优异。当然，若果真如此，他们未必公开说明——这属于核心商业机密。DeepSeek 的卓越之处在于完全开源模型权重与方法细节，允许任何人实验验证并深入探索此突破。」

即便这些技术可能使注意力机制略有「损失」，但若能让前沿LLM具备千万乃至两千万token级上下文窗口，无疑令人振奋。

设想：将公司所有核心内部文档嵌入提示词前缀并缓存至系统，随后仅需添加具体问题或指令，即可快速经济地完成查询，无需额外搜索工具。

或可将整个代码库纳入上下文并缓存，每次修改仅需追加类似Git差异的部分内容。

他进一步比喻：「这令人联想到著名物理学家Hans Bethe的故事——他以惊人记忆力著称，能背诵大量随机物理数据（如完整元素周期表、各种物质沸点等），因此在思考与计算时极少中断查阅资料。」

毋庸置疑，拥有大量任务相关知识并实时调用的能力极为强大。DeepSeek 此法似乎为模型「工作记忆」容量提升十倍以上提供了智能且可扩展的路径。

在Hacker News等平台，DeepSeek-OCR 亦引发广泛讨论。

Django Web 框架联合创建者 Simon Willison 甚至成功让 Claude Code 在英伟达 Spark 硬件上运行此模型。整个过程仅用4个提示词，耗时约40分钟。

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第5张

科技视频播主 NiceKate AI 成功将其部署至 Mac 设备。

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第6张

但需注意，不少研究者指出，DeepSeek 新模型在工程上成就显著，但其核心方法并非首创。

早在2022年，哥本哈根大学等机构论文《Language Modelling with Pixels》已提出类似思想。其中介绍了基于像素的语言编码器（Pixel-based Encoder of Language），简称PIXEL，旨在解决语言模型的词汇瓶颈。

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第7张

PIXEL 架构概况，来自论文《Language Modelling with Pixels》，arXiv:2207.06991

具体而言，PIXEL 是一种预训练语言模型，将文本渲染为图像，从而基于字形相似性或像素共激活模式实现跨语言表示迁移。与传统语言模型预测token分布不同，PIXEL 训练目标为重建被遮盖图像块的像素。

此后多项研究对此思路进行了发展与改进，主要包括：

CVPR 2023 论文：CLIPPO: Image-and-Language Understanding from Pixels Only
NeurIPS 2024 论文：Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
2024 年论文：Improving Language Understanding from Screenshots
NeurIPS 2025 论文：Vision-centric Token Compression in Large Language Model

无论如何，DeepSeek-OCR 显然是一款实用型模型，已有众多先行者开始应用：

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式 DeepSeek-OCR 视觉token压缩大模型效率开源AI 第8张