DeepSeek-OCR革新AI!像素级文本处理,压缩率超高效,基准测试夺冠。开源一夜爆红,收获4.4k星,Karpathy点赞视觉输入的无限可能。
DeepSeek再次震撼全球!
其最新成果DeepSeek-OCR彻底颠覆游戏规则——
文本不再是唯一输入,视觉将取而代之!
在光学文字识别OCR领域,DeepSeek-OCR堪称工程奇迹——
🚀单卡A100-40G上,速度达每秒约2500 Token。
🧠保持97% OCR准确率,视觉上下文压缩至原1/20,常规使用轻松小于1/10。
📄OmniDocBench基准测试中,更少视觉Token超越GOT-OCR2.0和MinerU2.0。
效果究竟多惊艳?
一页密文,仅100个视觉Token,OmniDocBench上实现最多60倍压缩!
DeepSeek-OCR将文字变为像素,如将百页书压缩成照片,AI依然解读无误。
参数少、压缩率高、速度快、支持百种语言……DeepSeek-OCR全做到。
不仅理论价值高,实用性也超强,好评如潮:
Github开源项目DeepSeek-OCR一夜爆红,收获4.4k星🌟:
DeepSeek-OCR证明实体页面是更优数据源,优于低质互联网文本。
Karpathy力挺新模型,难掩欣喜:
Karpathy喜爱DeepSeek-OCR新论文。
更有趣的是,像素输入是否优于文本输入?文本Token是否既浪费又糟糕?
DeepSeek-OCR动摇「文本核心地位」,视觉或成主流!
Karpathy自称「搞计算机视觉」,对上述问题尤感兴趣。
图像可轻易获双向注意力,而文本不行?图像块不理想?
原则上可行,但文本通常采用自回归方式训练。
图像块编码与Token解码核心差异。
OCR只是起点,「文本到文本」可改为「视觉到文本」。
三位作者:Haoran Wei、Yaofeng Sun、Yukun Li。
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543048.html