一个仅由两人组成的小团队,在短短两周内便成功复刻了备受硅谷赞誉的DeepSeek-OCR,令人惊叹!
他们的复刻作品名为DeepOCR,不仅继承了原版低token高压缩的核心优势,还在关键任务上达到了与原版相媲美的表现。
更令人称道的是,DeepOCR完全开源,且无需依赖大规模的算力集群,只需两张H200即可完成训练。
DeepSeek-OCR的设计思想是通过用少量的视觉token替代大量文本token,实现视觉压缩,从而大幅降低大模型的计算开销,解决了大模型处理长文本的算力爆炸难题。
这个两人团队是如何在如此短的时间内复刻出核心能力的呢?
首先,我们来回顾一下DeepSeek-OCR为何会如此火爆。
大模型在处理长文本时,算力会随序列长度呈二次方增长,几百页的文档就能让显存不堪重负。而DeepSeek-OCR则提出了一个反常识的解决方案——将文字渲染成图片,利用视觉模态作为压缩媒介。
这样一来,原本需要几千个文本tokens才能承载的内容,仅需几百个视觉tokens即可,压缩比可达7-20倍,而且在10倍压缩下准确率仍能保持97%。
两人小团队复刻的核心策略非常明确,他们首先精准还原了原版的逻辑架构。
△
DeepSeek-OCR的灵魂在于其DeepEncoder编码器。在这一部分,团队严格遵循原版设计,采用了「局部处理-压缩-全局理解」的三阶段串联结构。
他们先用SAM-base处理高分辨率图像,将1024×1024的图切成16×16的补丁,通过窗口注意力控制激活内存,即使生成4096个初始token也不会让显存过载;接着用16×卷积压缩器、两层3×3卷积将4096个token减少到256个,还将特征维度从256扩展到1024,为后续的全局注意力减负;最后由CLIP-large接手,但它不读取原图,只处理压缩后的256个tokens,通过密集全局注意力捕捉文档语义,避免了纯全局注意力的内存爆炸问题。
复刻版还保留了原版的输出方式,将CLIP的补丁特征和展平后的SAM特征拼接,输出2048维的融合特征。
不过,在解码器上,复刻版做出了更务实的调整,将原版激活参数为570M的DeepSeek-3B-MoE换成了Qwen2-7B-Instruct。
这个调整并非技术实现不了,而是Qwen2-7B-Instruct与VILA训练框架兼容性更好,且完全开源。
从后续结果来看,这个替换是合理的,核心能力得以保留,还降低了落地门槛。
在训练方面,DeepOCR的低算力友好特性尤为明显。
它采用两阶段训练流程,并全程冻结DeepEncoder(SAM+CLIP),这一设计大幅降低了显存需求。
第一阶段仅训练多模态投影仪,冻结DeepEncoder与LLM,使用512的全局batch size和1e-3学习率,配合AdamW优化器与ZeRO-3卸载技术;第二阶段是全模型预训练,训练多模态投影仪与LLM,仍冻结DeepEncoder,全局batch size降至32,学习率调整为5e-5,同时开启梯度检查点进一步减少激活内存占用。
这套训练方案可以在2×H200 GPU上顺利运行,非常适合中小团队的资源条件。
再看实测数据,DeepOCR用约250个视觉tokens进行压缩的效率虽然略逊于DeepSeek-OCR Base版,但Qwen2.5-VL-7B等基线VLMs需要3949个token才能达到类似效果。
这也验证了光学压缩逻辑的有效性。
在基础任务中,DeepOCR的英文文本识别和表格解析表现突出,尤其是表格解析甚至优于原版。这也得益于对原版2D空间编码的精准还原。
本文由主机测评网于2026-05-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544095.html