当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR开源:视觉压缩技术助力高效文本识别

传闻多时的更新终于尘埃落定,DeepSeek近期推出了其最新的OCR工具——DeepSeek-OCR。该工具已在Hugging Face与GitHub上开源,其参数规模约为30亿,采用了创新的“视觉-文字压缩”方案,相比传统OCR模型大幅提升了扫描效率。

尽管DeepSeek-OCR的推出有望为DeepSeek在工具模型领域再添一块重要拼图,但这家在2025年备受瞩目的AI独角兽在C端用户规模上却遭遇了来自豆包的强劲挑战。根据QuestMobile的数据,中国消费级AI助手的榜首最近易位,豆包以约1.57亿的月活跃用户(MAU)反超DeepSeek的约1.43亿,攀升至首位。

业内分析认为,豆包的这一反超主要得益于其多模态能力的广泛应用以及与抖音生态的深度接入。尽管如此,DeepSeek团队坚信通过模型技术的迭代,他们也能走出一条差异化道路。最新的OCR模型不仅支持中英文混合文本识别,还能处理手写体和复杂表格等高难度场景,准确率在多个公开数据集上均刷新了纪录。

如果把2025年视为国内C端AI的“分水岭”,那么上半年无疑是DeepSeek以开源与推理能力推动的“技术爆炸”时刻。而下半年豆包的反超,则更像是互联网巨头深度整合资源后的“反击”。尽管让出了C端市场的头把交椅,但Deepseek并未停止对主力模型的大版本更新。此次DeepSeek-OCR的推出,被看作是这家国内顶流AI创业公司技术优先理念的又一次体现。

01

OCR技术对于大众而言并不陌生,指将文本图像转换为机器可读文本格式的流程。与以往的OCR系统/模型不同,Deepseek-OCR采用了“视觉-文字压缩”方案。一个仅30亿大小的模型在OmniDocBench测试中表现出色,仅使用100个视觉标记就超过了GOT-OCR 2.0(后者用了256个标记)。在标记数量少于800的情况下,它也击败了MinerU 2.0,后者每页需要超过6000个标记。

另一方面,百度此前也发布了其自研的多模态文档解析模型PaddleOCR-VL,并在全球权威的文档解析评测榜单OmniBenchDoc V1.5中以92.6分的成绩登顶。而Deepseek紧随其后发布的Deepseek-OCR在一些行业社群中被视为对竞争对手的“阻击”。

在Deepseek-OCR中,模型工程人员尝试了一种更高效的路径:利用视觉语言模型(VLM),直接在语义层面对图像中的文字信息进行压缩,将原本需要成千上万文字标记才能表达的内容映射为更少量、更具语义密度的视觉标记,从而显著降低整体计算成本。

DeepSeek-OCR开源:视觉压缩技术助力高效文本识别 DeepSeek-OCR 视觉-文字压缩 豆包 生态优势 第1张

此外,DeepSeek-OCR还具备“深度解析模式”,能将财务类图表直接转化为结构化数据,自动生成Markdown表格与图像。这意味着复杂的财报截图无需人工处理即可还原为可编辑的分析稿格式。

该系统的核心由两部分组成:负责图像理解的DeepEncoder和基于DeepSeek-3B-MoE架构的文字生成模块。DeepEncoder约有3.8亿参数,专门分析图像并生成压缩后的视觉特征;而文字生成部分启用了5.7亿个活跃参数,用于根据这些视觉特征生成高精度的文字描述。

据了解,Deepseek-OCR在10倍压缩下解码精度可达97%,即使在20倍压缩下也能保持60%的准确率。这意味着一张图像仅需少量token即可表示整篇文档。

从技术维度看,该模型代表着DeepSeek正在从“语言模型+Chatbot”核心路径向更多用户场景拓展。随着Deepseek-OCR的正式开源,其相关能力有望进一步产品化,在长文本、表格、跨页文档的压缩与提取场景均有应用空间。

02

根据QuestMobile数据,2025年8月豆包月活用户数约为1.57亿,环比增长约6.6%;同期DeepSeek月活约为1.43亿。豆包时隔两个季度在国内C端AI应用市场中重新夺回头部地位。

夺回“月活冠军”,豆包的成功离不开其生态优势与用户触点积累。与Deepseek不同,豆包定位为面向所有“大众用户”,强调场景化体验。在语音、图像、社交分享等领域均延展了模型能力,降低了用户使用门槛。相比之下,虽然DeepSeek技术强劲却更像ChatGPT模式的聊天应用入口单一、使用门槛较高。

豆包对Deepseek的包围主要体现在以下三个领域:一方面豆包可以借助抖音等字节系社交平台的分发能力。从豆包面世以来字节方面在AI产品投放上积攒了大量经验通过视频广告吸引新用户。

另一方面豆包在立项之初就瞄准了最广泛的受众产品体验面更宽。甚至在两个产品的名字上就可以看出差异。“Deepseek”的极客风与“豆包”这个名字相比对于国内用户而言更易上口。在APP的logo设计上豆包也选择了更加拟人化的处理。

DeepSeek-OCR开源:视觉压缩技术助力高效文本识别 DeepSeek-OCR 视觉-文字压缩 豆包 生态优势 第2张

此外凭借着字节在语音/视频生成等多领域建立的模型矩阵如今的豆包堪称AI圈的超级APP。支持多种多模态功能功能繁杂的同时也有清晰的用户引导逻辑让“非AI玩家”也能有不错的体验。

03

尽管DeepSeek在年初取得了显著的用户增长与技术突破但其后增长势头出现减缓迹象。咨询公司罗兰贝格此前披露的报告指出截至2025年2月DeepSeek与豆包在中国Top 10 AI应用中并列但彼时Deepseek领先豆包约3600万MAU。此后豆包在8月完成反超。

从产品更新节奏看DeepSeek在年底发布V3模型今年5月发布R1-0528优化了R1模型的幻觉问题。但在这之后尽管大版本更新传言不断传说中的R2却迟迟未现真身。在本次OCR模型发布之前Deepseek在下半年的主要动作是更新了V3.1模型支持混合推理模式及长上下文输入。

DeepSeek-OCR开源:视觉压缩技术助力高效文本识别 DeepSeek-OCR 视觉-文字压缩 豆包 生态优势 第3张

被豆包挤到第二名后Deepseek也并未在App端交互/生态上做出大幅优化动作。事实上从年初爆火至今Deepseek App一直沿用类似“ChatGPT”风格的交互逻辑没有豆包里各种第一方/第三方Agent坚定走在“模型即产品”的道路上。