DeepSeek近日推出创新模型DeepSeek-OCR,仅需原本十分之一的token数量,就能存储几乎相同的文本信息,这种高效的压缩技术令人震撼。
这一突破性进展甚至引起了国际科技圈的广泛关注,许多海外专家对此表现出极大兴趣。
昨日,DeepSeek正式发布了名为DeepSeek-OCR的新模型。OCR技术我们并不陌生,它主要用于识别图像中的文字内容。
经常使用微信的用户可能了解,微信客户端中的图片在点开后可以直接复制文字,这正是OCR技术的一种应用。
然而,DeepSeek此次推出的“技能OCR”却反其道而行之,它能将大量文字转化为一张图片,作为AI的“记忆载体”。这意味着,仅用文字存储信息已无法满足其需求。
以往的大模型,无论是ChatGPT、Gemini、Llama、Qwen还是DeepSeek自身,在读取数据时都依赖于文字,即常说的token。
我们输入的提示词会被转换为大量token供模型处理;提供的参考资料同样如此;即便是能识别图像的多模态大模型,也需先将图片转为文字描述再进行识别。但文字token真的是大模型理解世界的唯一方式吗?
DeepSeek决定探索新路径。毕竟,对比一张图片和一段文字,前者显然能容纳更多信息。
例如,某些描述可能不够全面。既然如此,能否直接用图片训练大模型?DeepSeek开始尝试,结果发现用图片训练出的模型既美观又实用。
一方面,它能以更少的token记忆更多内容。在文档理解测试中,DeepSeek-OCR仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0。更进一步,它用不到800个视觉token便击败了平均需6000+token的MinerU 2.0。
这意味着,当大模型开始使用图像方式记忆数据后,能够以更少的token资源获得更佳的表达效果。此外,DeepSeek-OCR支持多种分辨率和压缩模式,以适应不同复杂度的文档。
例如,一张仅有背景和标题的PPT,可能只需64个视觉token即可表示;若文字内容较多,则会自动切换至Large模式,使用最多400个视觉token记录;若仍不足,DeepSeek-OCR还支持动态调整的Gundam模式,灵活应对各种存储需求。
与传统仅能识别文字的模型相比,DeepSeek-OCR能记忆的数据更为丰富。论文中的柱状图,它能自动识别并保存为Excel格式;文章中的有机化合物分子结构图片,也能转化为标准的SMILES格式存储。
它不仅记忆图片本身,还同时记录图片位置及附近文字内容,从而捕获过去许多被忽视的二维信息。
这一技术的价值可能尚未被完全认识。当前大模型发展除显卡短缺外,最大难题是训练数据不足。常规数据集已用尽,高质量数据需爬取、购买或合成。
如今,许多过去未采集的数据可在二维信息中获取。例如,论文文件过去只能提取文字信息,图表插图则无法处理;而使用DeepSeek-OCR后,这部分缺失可无缝补全。
实际上,DeepSeek在论文中特别提到,新模型在一张A100显卡上,一天可采集超过20万页训练数据。因此,有了DeepSeek-OCR,所有历史数据都值得重新识别,这些数据将成为下一代大模型的养分。
另一方面,使用二维方式存储数据后,模型运行也更节省资源。众所周知,大模型对话越长,上下文越久,越容易出错。这是因为模型需处理每个单词与其他所有单词的关系,对话长度翻倍,计算量增为四倍;增两倍,计算量变为九倍。这也是大模型厂商限制上下文长度的原因之一,过长对话成本极高。
采用图像记忆后,DeepSeek能将token数量压缩至原本十分之一,同时性能损失极小。论文显示,初版DeepSeek-OCR以十分之一token数量达到原模型96.5%的准确率;即使压缩二十倍,准确率仍保持约六成。
同时,DeepSeek研究人员发现有趣现象:模型通过不同清晰度存储图像的方式,类似人类遗忘信息的过程。对人类而言,遗忘是渐进的;刚发生的事如同Gundam模式存储的数据,最清晰;随时间推移,重要性降低,存储格式从Large降至Tiny,占用token越来越少。
将此概念引入大模型,可将近期聊天记录以“4K HDR蓝光”格式存储,早年不重要记录则压缩为480P文件。通过这种主动遗忘,能否增强大模型上下文能力?这一想法颇具意义,但DeepSeek尚未给出明确答案。
幸运的是,DeepSeek-OCR一如既往地开源,相信此问题不久将成为热点,催生新创新。最后,关于开源,我还注意到:此次研究不仅是DeepSeek的成果,也是开源社区的集体胜利。
训练数据使用了华为的Wukong数据集,生成样本文字借助了百度的PaddleOCR,图像特征提取核心组件是Meta开源的SAM,视觉语义理解整合了OpenAI的CLIP模型。
正是这些全球开源成果,被DeepSeek重新编织成能“用图片思考”的AI。那么,R2何时会来呢?
本文由主机测评网于2026-01-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116953.html