人工智能领域近日又现创新突破,DeepSeek 团队默默开源了一款拥有30亿参数的紧凑型模型,即DeepSeek-OCR。
尽管模型体积不大,但其理念极具颠覆性:尝试让人工智能通过视觉方式解读文本。
是的,真正做到“看图识字”。
这不仅限于识别文字,更是将“视觉模态”转化为一种文本压缩载体,用图像表征文字,以“视觉 token”替代“文本 token”,实现所谓的光学压缩(Optical Compression)。
坦率地说,初次看到这篇论文时,笔者的直觉反应是:难道他们想让语言模型也进修美术课程?
但深思之后,发现此想法颇有见地。
大型语言模型(LLM)的核心挑战何在?处理长文本时计算资源消耗巨大。
众所周知,大模型的注意力机制复杂度呈平方级增长。输入长度翻倍,计算量增至四倍;若让其记忆完整长文档,瞬间便开启“燃烧显卡与心智”模式。
能否转换思路?DeepSeek 团队提出:既然单张图像可容纳大量文字,何不直接将文本转换为图像,再让模型进行视觉解析!
论文中展示了一个鲜明案例:原本需要 1000 个 token 表述的内容,现仅用 100 个视觉 token 即可处理,压缩率达 10 倍,且保持 97% 的 OCR 准确度。
进一步,即使压缩 20 倍,仍能维持约 60% 的准确率。这意味着,模型“读图”的效率,竟超越了“读字”。
换言之,模型在未丢失大量信息的前提下,计算负担减轻了十倍。
众多网友见此无不惊讶:AI 处理图像所需资源竟少于长文本?这违背常规认知!
亦有网友感慨:DeepSeek 此举意在让模型“浏览文档如刷社交媒体般轻快”。
笔者认为,此番操作可誉为“逆向降维打击”。
以往我们致力于让模型更精通文字、扩展上下文;DeepSeek 却反其道而行:使模型将文字转化为图像,再“以图识文”。类似回归人类最初的沟通形态:象形文字。
谈及技术实现,DeepSeek-OCR 由两大组件构成:DeepEncoder(视觉压缩编码器)与DeepSeek3B-MoE(解码还原器)。
前者作为系统的“压缩引擎”,整合了 SAM-base 与 CLIP-large 两大视觉强者:
SAM 专注局部“窗口注意力”捕捉细节,CLIP 掌管整体“全局注意力”把握全貌。其间嵌入 16× 卷积压缩模块,专门缩减 token 数量。
例如,一张 1024×1024 的图像,理论需分割为 4096 个区块处理,经此压缩模块精简后,直接凝练为数百个 token。
如此,既维护了清晰度,又避免了显存过载。
此外,它还支持多级分辨率模式:Tiny、Small、Base、Large,以及一个名为 “Gundam(高达)” 的动态自适应模式。
是的,此模型命名亦透出一丝“动漫情怀”。
解码器部分则延续 DeepSeek 的专长:MoE(混合专家)架构。
64 位专家中每次仅激活 6 位,辅以两位共享专家,实际动用参数约 5.7 亿,性能却堪比 30 亿模型。高效节能,可谓“节能技术中的顶尖典范”。
其任务简明:从压缩后的视觉 token 中,将文字“解码”复原。
全过程犹如 OCR 的进阶版,但此次是模型自主“读图猜字”,而非人类教导识字,且猜测精度极高。
当然,要训练此模型,需充足数据滋养。DeepSeek 此次投入巨量资源:总计 3000 万页 PDF 文档,覆盖 100 种语言,其中中英文占 2500 万页。
他们还构建了“模型增强循环”:先用版面分析模型进行粗标注,再以 GOT-OCR 等模型精细标注,训练迭代后,反哺更多数据标注。
循环往复,模型实现自我成长。
除此之外,另有 300 万条 Word 文档,专项训练公式识别、HTML 表格提取,甚至涵盖金融图表、化学结构式、几何图形等多样图像结构,均纳入训练集。
DeepSeek 还从 LAION、Wukong 等开源数据集采集中英文各 1000 万张场景图,通过 PaddleOCR 标注。
可以说,此次训练真正实现了“跨学科全覆盖”,确系以海量数据锤炼出的智慧结晶。
效果如何?论文列出的多组结果表现卓越。
在 OmniDocBench 测试中,DeepSeek-OCR 仅用100 个视觉 token便超越 GOT-OCR2.0(每页 256 token)。使用不足800 个视觉 token,又胜过 MinerU2.0(每页 6000+ token)。
性能更优、输入更简、推理更迅捷。
此等速度,堪称“AI 印刷机”。
然而,最令笔者赞叹的,是论文末尾的构思:光学压缩能否模拟人类遗忘机制?
人脑记忆随岁月流逝而模糊,旧事渐淡,新事清晰。DeepSeek 团队思考:AI 能否也学会“遗忘”?
若 AI 能如人类般“选择性记忆”,是否能在超长对话中更从容?
他们设计了一项实验构想:超过第 k 轮的历史对话内容,渲染为图像;先压缩一次,减少 10 倍 token;若更久远,继续降低图像尺寸;图像越小,信息越模糊,最终实现“遗忘”。
有网友阅毕直言:这正是在模拟人脑记忆原理!
当然,亦有质疑声:DeepSeek 的幻觉问题本就显著,若再学会“遗忘”,恐遗忘速度超越人类。
笔者观此部分,深感哲学意蕴。AI 的记忆,究竟应无限扩展,还是学会遗忘?
DeepSeek 给出的答案是后者,借视觉方式,让模型在“压缩”同时“筛选”冗余。恰似人脑:仅留存有用信息。
此举意义超越 OCR 本身,它重塑了“上下文”概念:非记忆之多,乃记忆之精。
归根结底,DeepSeek-OCR 表面为 OCR 模型,实则在探索新范式:能否以视觉模态高效承载语言信息?
当众人追逐“更大、更长、更昂贵”时,DeepSeek 却反手打造“更小、更快、更精巧”的模型。
此本就深具 DeepSeek 风格。
笔者最终想言:AI 的演进,未必总是加法,有时减法更为优雅。
DeepSeek-OCR 即为明证:一个 3B 小模型,开拓长文本压缩新径,甚至触及“记忆与遗忘”的边界。
若去年主题是“谁能记忆更多”,今年或许变为“谁能遗忘更智”。而 DeepSeek,此次再度领先。
本文由主机测评网于2026-01-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260117408.html