当前位置：首页 > 科技资讯 > 正文

新一代OCR评测基准：挑战多模态大模型极限

主机测评网
科技资讯
2026-05-04
446

华中科技大学白翔团队携手多家高校与字节推出OCRBench v2，针对全球58个主流多模态大模型进行了2023-2025年的中英双语测评。

自诞生以来，光学字符识别（OCR）技术经历了从简单工具到智能信息系统核心的演变。如今，随着深度学习和多模态模型的发展，OCR已不仅仅是提取文本，更需理解文档结构与语义，以应对复杂场景中的表格、版面和图文混排内容。大模型在海量数据下自然习得OCR能力，实现端到端的识别、理解与回答。此技术正成为上层智能任务的基础，只有准确识别文本，模型才能进一步完成解析、问答和知识抽取等任务。

评价多模态大模型时，OCR性能成为关键指标之一。当前需求已超越文字识别，包括表格、图表、手写笔记、复杂版式等均需攻克。然而，传统评测基准任务单一、场景有限，难以真实反映模型能力。为此，华中科技大学白翔团队联合多家机构推出新一代OCR评测基准OCRBench v2，对全球58个主流多模态大模型进行了中英文测评，结果如下：

新一代OCR评测基准：挑战多模态大模型极限 OCR 多模态大模型评测基准第1张

OCRBench v2 中文榜单

新一代OCR评测基准：挑战多模态大模型极限 OCR 多模态大模型评测基准第2张

OCRBench v2 英文榜单

* 查看英文榜单：https://go.hyper.ai/wlGTR

* 查看中文榜单：https://go.hyper.ai/HZenn

* 项目开源地址：https://github.com/Yuliang-Liu/MultimodalOCR

23项细分任务，覆盖多样场景

OCRBench v2 涵盖23种细分任务，覆盖8大核心能力维度——文本识别、定位、检测识别、关系抽取等。其公开数据集包含来自80余个学术数据集及部分自有数据的高质量QA，并经过人工审核，确保覆盖真实应用中的多样化场景。

OCRBench v2 涵盖任务的典型样例

OCRBench v2的公开数据集包含经过人工审核的1万条高质量QA，确保覆盖真实应用中的多样化场景。此外，还包括独立的私有数据，包含人工采集并标注的1,500条QA。

* 数据集下载地址：https://go.hyper.ai/VNHSX

实验发现公开数据与私有数据榜单排名一致性高，证明了任务设计、数据构造和评价指标的合理性。

相关研究论文已收录于NeurIPS 2025（Datasets and Benchmarks Track）。

* 论文地址：https://go.hyper.ai/VNHSX

主流模型普遍偏科，最高得分仅及格

在最新发布的评测榜单中，Gemini-2.5-Pro获中文榜冠军、英文榜季军；Seed1.6-vision则获英文榜冠军、中文榜亚军。开源阵营中，Qwen3-Omni-30B-A3B-Instruct分别取得佳绩。

分析显示，多模态大模型普遍存在“偏科”现象，鲜有模型在所有核心能力上均表现出色。即便是排名前列的模型，在中英文任务中的平均分也仅约60分（满分100）。各模型擅长方面略有不同，如Gemini系列在计算类题目上表现突出；Llama系列则凭借文字定位能力取得佳绩。

多数模型在基础文本识别上表现尚可，但在细粒度空间感知与结构化理解要求高的任务上得分偏低。例如，冠军模型Seed1.6-vision在Spotting得分仅为38.0，限制了其在真实场景下的应用效果。

此外，通过对比中英文榜单发现许多模型的多语言能力不均衡。例如Llama系列在英文榜单上表现优异，但在中文榜单上排名较低。

尽管闭源模型领先，但优秀开源模型已具备强劲竞争力。英文榜单前10中5个为开源模型；中文榜单前10中7个为开源模型。开源模型在文字定位、元素提取等任务上达到顶尖水平。

OCRBench v2榜单将按季度更新，HyperAI将持续追踪最新评测结果。

云服务器阿里云服务器

本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542625.html

上一篇
投资人转向：基础设施资产成新宠

下一篇
FlowSearch：AI科研探索新纪元

相关文章

揭秘交易所内的量化交易：低延迟竞赛与公平性挑战

国资委新规：细化免责条款，鼓励央企创新投资

人形机器人春晚争夺战：监管降温，产业需实质突破

数据价值跃迁：8.0版数据资产管理指南发布

美元存款利率面临下调，投资者需警惕汇率风险

TwiG：边生成边思考，重塑视觉生成新范式

拼多多面临低价挑战，黄峥的供应链战略能否破局？

AGI的未来：从单体到分布式智能的哲学重构