当前位置：首页 > 科技资讯 > 正文

两周复刻DeepSeek-OCR，DeepOCR惊艳登场

主机测评网
科技资讯
2026-05-10
985

一个仅由两人组成的小团队，在短短两周内便成功复刻了备受硅谷赞誉的DeepSeek-OCR，令人惊叹！

他们的复刻作品名为DeepOCR，不仅继承了原版低token高压缩的核心优势，还在关键任务上达到了与原版相媲美的表现。

更令人称道的是，DeepOCR完全开源，且无需依赖大规模的算力集群，只需两张H200即可完成训练。

两周复刻DeepSeek-OCR，DeepOCR惊艳登场 DeepOCR 低token高压缩视觉压缩开源第1张

DeepSeek-OCR的设计思想是通过用少量的视觉token替代大量文本token，实现视觉压缩，从而大幅降低大模型的计算开销，解决了大模型处理长文本的算力爆炸难题。

这个两人团队是如何在如此短的时间内复刻出核心能力的呢？

更实用的复刻版

首先，我们来回顾一下DeepSeek-OCR为何会如此火爆。

大模型在处理长文本时，算力会随序列长度呈二次方增长，几百页的文档就能让显存不堪重负。而DeepSeek-OCR则提出了一个反常识的解决方案——将文字渲染成图片，利用视觉模态作为压缩媒介。

这样一来，原本需要几千个文本tokens才能承载的内容，仅需几百个视觉tokens即可，压缩比可达7-20倍，而且在10倍压缩下准确率仍能保持97%。

两周复刻DeepSeek-OCR，DeepOCR惊艳登场 DeepOCR 低token高压缩视觉压缩开源第2张

两人小团队复刻的核心策略非常明确，他们首先精准还原了原版的逻辑架构。

两周复刻DeepSeek-OCR，DeepOCR惊艳登场 DeepOCR 低token高压缩视觉压缩开源第3张

△

DeepSeek-OCR的灵魂在于其DeepEncoder编码器。在这一部分，团队严格遵循原版设计，采用了「局部处理-压缩-全局理解」的三阶段串联结构。

他们先用SAM-base处理高分辨率图像，将1024×1024的图切成16×16的补丁，通过窗口注意力控制激活内存，即使生成4096个初始token也不会让显存过载；接着用16×卷积压缩器、两层3×3卷积将4096个token减少到256个，还将特征维度从256扩展到1024，为后续的全局注意力减负；最后由CLIP-large接手，但它不读取原图，只处理压缩后的256个tokens，通过密集全局注意力捕捉文档语义，避免了纯全局注意力的内存爆炸问题。

复刻版还保留了原版的输出方式，将CLIP的补丁特征和展平后的SAM特征拼接，输出2048维的融合特征。

两周复刻DeepSeek-OCR，DeepOCR惊艳登场 DeepOCR 低token高压缩视觉压缩开源第4张

不过，在解码器上，复刻版做出了更务实的调整，将原版激活参数为570M的DeepSeek-3B-MoE换成了Qwen2-7B-Instruct。

这个调整并非技术实现不了，而是Qwen2-7B-Instruct与VILA训练框架兼容性更好，且完全开源。

从后续结果来看，这个替换是合理的，核心能力得以保留，还降低了落地门槛。

两周复刻DeepSeek-OCR，DeepOCR惊艳登场 DeepOCR 低token高压缩视觉压缩开源第5张

在训练方面，DeepOCR的低算力友好特性尤为明显。

它采用两阶段训练流程，并全程冻结DeepEncoder（SAM+CLIP），这一设计大幅降低了显存需求。

第一阶段仅训练多模态投影仪，冻结DeepEncoder与LLM，使用512的全局batch size和1e-3学习率，配合AdamW优化器与ZeRO-3卸载技术；第二阶段是全模型预训练，训练多模态投影仪与LLM，仍冻结DeepEncoder，全局batch size降至32，学习率调整为5e-5，同时开启梯度检查点进一步减少激活内存占用。

这套训练方案可以在2×H200 GPU上顺利运行，非常适合中小团队的资源条件。

两周复刻DeepSeek-OCR，DeepOCR惊艳登场 DeepOCR 低token高压缩视觉压缩开源第6张