当前位置：首页 > 科技资讯 > 正文

DeepSeek-OCR：视觉压缩技术革新文本处理方式

主机测评网
科技资讯
2026-01-13
664

人工智能领域近日又现创新突破，DeepSeek 团队默默开源了一款拥有30亿参数的紧凑型模型，即DeepSeek-OCR。

尽管模型体积不大，但其理念极具颠覆性：尝试让人工智能通过视觉方式解读文本。

是的，真正做到“看图识字”。

这不仅限于识别文字，更是将“视觉模态”转化为一种文本压缩载体，用图像表征文字，以“视觉 token”替代“文本 token”，实现所谓的光学压缩（Optical Compression）。

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第1张

坦率地说，初次看到这篇论文时，笔者的直觉反应是：难道他们想让语言模型也进修美术课程？

但深思之后，发现此想法颇有见地。

大型语言模型（LLM）的核心挑战何在？处理长文本时计算资源消耗巨大。

众所周知，大模型的注意力机制复杂度呈平方级增长。输入长度翻倍，计算量增至四倍；若让其记忆完整长文档，瞬间便开启“燃烧显卡与心智”模式。

能否转换思路？DeepSeek 团队提出：既然单张图像可容纳大量文字，何不直接将文本转换为图像，再让模型进行视觉解析！

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第2张

论文中展示了一个鲜明案例：原本需要 1000 个 token 表述的内容，现仅用 100 个视觉 token 即可处理，压缩率达 10 倍，且保持 97% 的 OCR 准确度。

进一步，即使压缩 20 倍，仍能维持约 60% 的准确率。这意味着，模型“读图”的效率，竟超越了“读字”。

换言之，模型在未丢失大量信息的前提下，计算负担减轻了十倍。

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第3张

众多网友见此无不惊讶：AI 处理图像所需资源竟少于长文本？这违背常规认知！

亦有网友感慨：DeepSeek 此举意在让模型“浏览文档如刷社交媒体般轻快”。

笔者认为，此番操作可誉为“逆向降维打击”。

以往我们致力于让模型更精通文字、扩展上下文；DeepSeek 却反其道而行：使模型将文字转化为图像，再“以图识文”。类似回归人类最初的沟通形态：象形文字。

谈及技术实现，DeepSeek-OCR 由两大组件构成：DeepEncoder（视觉压缩编码器）与DeepSeek3B-MoE（解码还原器）。

前者作为系统的“压缩引擎”，整合了 SAM-base 与 CLIP-large 两大视觉强者：

SAM 专注局部“窗口注意力”捕捉细节，CLIP 掌管整体“全局注意力”把握全貌。其间嵌入 16× 卷积压缩模块，专门缩减 token 数量。

例如，一张 1024×1024 的图像，理论需分割为 4096 个区块处理，经此压缩模块精简后，直接凝练为数百个 token。

如此，既维护了清晰度，又避免了显存过载。

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第4张

此外，它还支持多级分辨率模式：Tiny、Small、Base、Large，以及一个名为 “Gundam（高达）” 的动态自适应模式。

是的，此模型命名亦透出一丝“动漫情怀”。

解码器部分则延续 DeepSeek 的专长：MoE（混合专家）架构。

64 位专家中每次仅激活 6 位，辅以两位共享专家，实际动用参数约 5.7 亿，性能却堪比 30 亿模型。高效节能，可谓“节能技术中的顶尖典范”。

其任务简明：从压缩后的视觉 token 中，将文字“解码”复原。

全过程犹如 OCR 的进阶版，但此次是模型自主“读图猜字”，而非人类教导识字，且猜测精度极高。

当然，要训练此模型，需充足数据滋养。DeepSeek 此次投入巨量资源：总计 3000 万页 PDF 文档，覆盖 100 种语言，其中中英文占 2500 万页。

他们还构建了“模型增强循环”：先用版面分析模型进行粗标注，再以 GOT-OCR 等模型精细标注，训练迭代后，反哺更多数据标注。

循环往复，模型实现自我成长。

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第5张

除此之外，另有 300 万条 Word 文档，专项训练公式识别、HTML 表格提取，甚至涵盖金融图表、化学结构式、几何图形等多样图像结构，均纳入训练集。

DeepSeek 还从 LAION、Wukong 等开源数据集采集中英文各 1000 万张场景图，通过 PaddleOCR 标注。

可以说，此次训练真正实现了“跨学科全覆盖”，确系以海量数据锤炼出的智慧结晶。

效果如何？论文列出的多组结果表现卓越。

在 OmniDocBench 测试中，DeepSeek-OCR 仅用100 个视觉 token便超越 GOT-OCR2.0（每页 256 token）。使用不足800 个视觉 token，又胜过 MinerU2.0（每页 6000+ token）。

性能更优、输入更简、推理更迅捷。

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第6张

此等速度，堪称“AI 印刷机”。

然而，最令笔者赞叹的，是论文末尾的构思：光学压缩能否模拟人类遗忘机制？

人脑记忆随岁月流逝而模糊，旧事渐淡，新事清晰。DeepSeek 团队思考：AI 能否也学会“遗忘”？

若 AI 能如人类般“选择性记忆”，是否能在超长对话中更从容？

他们设计了一项实验构想：超过第 k 轮的历史对话内容，渲染为图像；先压缩一次，减少 10 倍 token；若更久远，继续降低图像尺寸；图像越小，信息越模糊，最终实现“遗忘”。

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第7张

有网友阅毕直言：这正是在模拟人脑记忆原理！

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第8张

当然，亦有质疑声：DeepSeek 的幻觉问题本就显著，若再学会“遗忘”，恐遗忘速度超越人类。

笔者观此部分，深感哲学意蕴。AI 的记忆，究竟应无限扩展，还是学会遗忘？

DeepSeek 给出的答案是后者，借视觉方式，让模型在“压缩”同时“筛选”冗余。恰似人脑：仅留存有用信息。

DeepSeek-OCR：视觉压缩技术革新文本处理方式 DeepSeek-OCR 光学压缩视觉token 文本处理优化第9张

此举意义超越 OCR 本身，它重塑了“上下文”概念：非记忆之多，乃记忆之精。

归根结底，DeepSeek-OCR 表面为 OCR 模型，实则在探索新范式：能否以视觉模态高效承载语言信息？

当众人追逐“更大、更长、更昂贵”时，DeepSeek 却反手打造“更小、更快、更精巧”的模型。

此本就深具 DeepSeek 风格。

笔者最终想言：AI 的演进，未必总是加法，有时减法更为优雅。

DeepSeek-OCR 即为明证：一个 3B 小模型，开拓长文本压缩新径，甚至触及“记忆与遗忘”的边界。

若去年主题是“谁能记忆更多”，今年或许变为“谁能遗忘更智”。而 DeepSeek，此次再度领先。

阿里云服务器免费服务器高防服务器

本文由主机测评网于2026-01-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260117408.html

DeepSeek-OCR：视觉压缩技术革新文本处理方式

Ubuntu系统安装超详细指南

安世半导体控制权风波：荷兰冻结资产触发中国反制，全球汽车供应链陷危机

DeepSeek-OCR：视觉压缩技术革新文本处理方式

Ubuntu系统安装超详细指南

安世半导体控制权风波：荷兰冻结资产触发中国反制，全球汽车供应链陷危机

相关文章