当前位置:首页 > 科技资讯 > 正文

新一代OCR评测基准:挑战多模态大模型极限

华中科技大学白翔团队携手多家高校与字节推出OCRBench v2,针对全球58个主流多模态大模型进行了2023-2025年的中英双语测评。

自诞生以来,光学字符识别(OCR)技术经历了从简单工具到智能信息系统核心的演变。如今,随着深度学习和多模态模型的发展,OCR已不仅仅是提取文本,更需理解文档结构与语义,以应对复杂场景中的表格、版面和图文混排内容。大模型在海量数据下自然习得OCR能力,实现端到端的识别、理解与回答。此技术正成为上层智能任务的基础,只有准确识别文本,模型才能进一步完成解析、问答和知识抽取等任务。

评价多模态大模型时,OCR性能成为关键指标之一。当前需求已超越文字识别,包括表格、图表、手写笔记、复杂版式等均需攻克。然而,传统评测基准任务单一、场景有限,难以真实反映模型能力。为此,华中科技大学白翔团队联合多家机构推出新一代OCR评测基准OCRBench v2,对全球58个主流多模态大模型进行了中英文测评,结果如下:

新一代OCR评测基准:挑战多模态大模型极限 OCR 多模态 大模型 评测基准 第1张

OCRBench v2 中文榜单

新一代OCR评测基准:挑战多模态大模型极限 OCR 多模态 大模型 评测基准 第2张

OCRBench v2 英文榜单

* 查看英文榜单:https://go.hyper.ai/wlGTR

* 查看中文榜单:https://go.hyper.ai/HZenn

* 项目开源地址:https://github.com/Yuliang-Liu/MultimodalOCR

23项细分任务,覆盖多样场景

OCRBench v2 涵盖23种细分任务,覆盖8大核心能力维度——文本识别、定位、检测识别、关系抽取等。其公开数据集包含来自80余个学术数据集及部分自有数据的高质量QA,并经过人工审核,确保覆盖真实应用中的多样化场景。

新一代OCR评测基准:挑战多模态大模型极限 OCR 多模态 大模型 评测基准 第3张

OCRBench v2 涵盖任务的典型样例

OCRBench v2的公开数据集包含经过人工审核的1万条高质量QA,确保覆盖真实应用中的多样化场景。此外,还包括独立的私有数据,包含人工采集并标注的1,500条QA。

* 数据集下载地址:https://go.hyper.ai/VNHSX

实验发现公开数据与私有数据榜单排名一致性高,证明了任务设计、数据构造和评价指标的合理性。

相关研究论文已收录于NeurIPS 2025(Datasets and Benchmarks Track)。

* 论文地址:https://go.hyper.ai/VNHSX

主流模型普遍偏科,最高得分仅及格

在最新发布的评测榜单中,Gemini-2.5-Pro获中文榜冠军、英文榜季军;Seed1.6-vision则获英文榜冠军、中文榜亚军。开源阵营中,Qwen3-Omni-30B-A3B-Instruct分别取得佳绩。

分析显示,多模态大模型普遍存在“偏科”现象,鲜有模型在所有核心能力上均表现出色。即便是排名前列的模型,在中英文任务中的平均分也仅约60分(满分100)。各模型擅长方面略有不同,如Gemini系列在计算类题目上表现突出;Llama系列则凭借文字定位能力取得佳绩。

多数模型在基础文本识别上表现尚可,但在细粒度空间感知与结构化理解要求高的任务上得分偏低。例如,冠军模型Seed1.6-vision在Spotting得分仅为38.0,限制了其在真实场景下的应用效果。

此外,通过对比中英文榜单发现许多模型的多语言能力不均衡。例如Llama系列在英文榜单上表现优异,但在中文榜单上排名较低。

尽管闭源模型领先,但优秀开源模型已具备强劲竞争力。英文榜单前10中5个为开源模型;中文榜单前10中7个为开源模型。开源模型在文字定位、元素提取等任务上达到顶尖水平。

OCRBench v2榜单将按季度更新,HyperAI将持续追踪最新评测结果。