当前位置:首页 > 科技资讯 > 正文

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命

DeepSeek-OCR革新AI!像素级文本处理,压缩率超高效,基准测试夺冠。开源一夜爆红,收获4.4k星,Karpathy点赞视觉输入的无限可能。

DeepSeek再次震撼全球!

其最新成果DeepSeek-OCR彻底颠覆游戏规则——

文本不再是唯一输入,视觉将取而代之!

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第1张

在光学文字识别OCR领域,DeepSeek-OCR堪称工程奇迹——

🚀单卡A100-40G上,速度达每秒约2500 Token

🧠保持97% OCR准确率,视觉上下文压缩至原1/20,常规使用轻松小于1/10。

📄OmniDocBench基准测试中,更少视觉Token超越GOT-OCR2.0和MinerU2.0。

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第2张

效果究竟多惊艳?

一页密文,仅100个视觉Token,OmniDocBench上实现最多60倍压缩!

DeepSeek-OCR将文字变为像素,如将百页书压缩成照片,AI依然解读无误。

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第3张

参数少、压缩率高、速度快、支持百种语言……DeepSeek-OCR全做到。

不仅理论价值高,实用性也超强,好评如潮:

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第4张

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第5张

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第6张

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第7张

Github开源项目DeepSeek-OCR一夜爆红,收获4.4k星🌟:

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第8张

DeepSeek-OCR证明实体页面是更优数据源,优于低质互联网文本。

Karpathy力挺新模型,难掩欣喜:

Karpathy技痒难耐,吐槽分词器已久

Karpathy喜爱DeepSeek-OCR新论文。

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第9张

更有趣的是,像素输入是否优于文本输入?文本Token是否既浪费又糟糕?

DeepSeek-OCR动摇「文本核心地位」,视觉或成主流!

Karpathy自称「搞计算机视觉」,对上述问题尤感兴趣。

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第10张

为何图像输入对AI更友好?

图像可轻易获双向注意力,而文本不行?图像块不理想?

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第11张

原则上可行,但文本通常采用自回归方式训练。

图像块编码与Token解码核心差异。

视觉输入前景展望

OCR只是起点,「文本到文本」可改为「视觉到文本」。

作者介绍

三位作者:Haoran Wei、Yaofeng Sun、Yukun Li。

DeepSeek-OCR引领AI新纪元:像素级文本处理与视觉输入革命 DeepSeek-OCR 视觉输入 文本压缩 AI突破 第12张