当前位置:首页 > 科技资讯 > 正文

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理

一个仅有两人的小团队,在短短两周时间内,便成功复刻了此前在硅谷引起轰动的DeepSeek-OCR技术。

这一复刻版被命名为DeepOCR,它不仅完美还原了原版低token高压缩的核心优势,还在多项关键任务上达到了与原版媲美的性能表现。

项目完全开源,且无需依赖大规模算力集群,仅使用两张H200 GPU即可完成整个训练过程。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第1张

DeepSeek-OCR的设计理念是“通过视觉压缩一切”,其核心在于用少量视觉token来表示原本需要大量文本token的内容,从而大幅降低大模型的计算开销,有效解决大模型处理长文本时的算力爆炸难题。

两人小团队为何能在如此短的时间内复刻出这一核心能力?他们究竟是如何实现的?

更实用的复刻版

首先,简要回顾DeepSeek-OCR广受赞誉的原因。

大模型在处理长文本时,算力需求会随着序列长度呈二次方增长,即便是几百页的文档也足以让显存不堪重负。

DeepSeek-OCR提出了一个反直觉的解决方案——将文字渲染成图片,利用视觉模态作为压缩媒介

如此一来,原本需要数千个文本tokens才能承载的内容,现在仅需几百个视觉tokens即可表示,压缩比可达7-20倍,而且在10倍压缩下准确率仍能保持97%

这也就难怪它一经开源便迅速走红,甚至被誉为“AI的JPEG时刻”。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第2张

两人团队的复刻策略十分明确,即首先精准还原原版的逻辑架构。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第3张

DeepSeek-OCR的灵魂在于其DeepEncoder编码器。在这部分,团队严格遵循原版设计,采用了「局部处理-压缩-全局理解」的三阶段串联结构。

第一步使用SAM-base处理高分辨率图像,将1024×1024的图片切割成16×16的补丁,依靠窗口注意力机制控制激活内存,使得即使生成4096个初始token也不会导致显存过载;

随后使用16×卷积压缩器及两层3×3卷积,将4096个token压缩至256个,同时将特征维度从256扩展至1024,为后续的全局注意力层减轻负担;

最后交由CLIP-large进行处理,但它并不读取原始图像,只处理压缩后的256个tokens,通过密集全局注意力捕捉文档语义,从而避免了纯全局注意力带来的内存爆炸问题。

复刻版也像原版一样,将CLIP的补丁特征与展平后的SAM特征进行拼接,最终输出2048维的融合特征。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第4张

然而,在解码器部分,复刻版做出了更务实的调整,将原版激活参数为570M的DeepSeek-3B-MoE替换成了Qwen2-7B-Instruct

这一调整并非技术无法还原,而是因为Qwen2-7B-Instruct与VILA训练框架兼容性更佳,且完全开源。

从后续结果看,这一替换是合理的,核心能力得以保留,同时还降低了实际应用的门槛。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第5张

在训练方面,DeepOCR的低算力友好特性体现得尤为明显。

其采用两阶段训练流程,且全程冻结DeepEncoder(包含SAM与CLIP),这一设计显著降低了显存需求。

第一阶段仅训练多模态投影仪,冻结DeepEncoder与LLM,采用512的全局批次大小、1e-3的学习率,配合AdamW优化器与ZeRO-3卸载技术;

第二阶段进行全模型预训练,训练多模态投影仪与LLM,DeepEncoder仍保持冻结,全局批次大小降至32,学习率调整为5e-5,同时开启梯度检查点以进一步减少激活内存占用。

这套训练方案可在2×H200 GPU上顺利运行,非常适配中小型团队的资源条件。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第6张

从实测数据看,在压缩效率上,DeepOCR使用约250个视觉tokens,效率虽略低于DeepSeek-OCR Base版,但相比Qwen2.5-VL-7B等基线视觉语言模型需要3949个token才能达到类似效果,优势明显。

这也再次验证了光学压缩逻辑的有效性。

在基础任务中,英文文本识别和表格解析表现突出,尤其是表格解析甚至优于原版,这得益于对原版2D空间编码的精准还原。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第7张

在olmOCR基准测试中,对于简单文档的基础OCR能力也非常扎实,与原版表现接近。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第8张

当然,DeepOCR与原版在客观上存在一定差距,但这并非架构还原不足,而是受限于训练数据。

团队表示后续将补充公式、多语言、旧扫描件等数据,并尝试动态温度缩放、RLVR等技术,以进一步缩小在复杂任务上的差距。

两人团队介绍

Ming Liu本科毕业于山东大学,专业是应用物理。随后在北京大学获得物理硕士学位,目前正在爱荷华州立大学攻读计算机博士学位,研究聚焦于多模态领域。

他曾于亚马逊担任应用科学家实习生,从事大语言模型相关工作。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第9张

刘世隆在清华大学获得工学学士和计算机博士学位,现为普林斯顿大学人工智能实验室博士后研究员。研究领域涵盖LLM智能体、多模态、计算机视觉等。

在加入普林斯顿之前,他曾是字节Seed团队的科研人员,并曾在英伟达、微软等公司实习。

两人团队两周成功复刻DeepSeek-OCR,DeepOCR以视觉压缩技术革新文档处理 DeepOCR  视觉压缩 低算力训练 开源复刻 第10张

项目主页:https://pkulium.github.io/DeepOCR_website/

代码地址:https://github.com/pkulium/DeepOCR