当前位置:首页 > 科技资讯 > 正文

大模型财报分析力评测:谁最懂财务语言?

在翻阅财报时,我们往往被复杂的业务表述和冗长的管理层发言所困扰,需要花费大量时间去甄别关键财务信息。特别是面对港股和美股的非标财务报表,国内大多数基于国内市场财务准则构建的金融软件经常出错。

随着AI大模型的兴起,这一财务研究的难题或许将迎刃而解。毕竟,模型最擅长的就是语言文字的总结归纳和数据的计算。

本文将对六大国内主流大模型进行评测,探究它们的财报分析能力究竟发展到什么水平,又存在哪些问题。

阅读提示:本文内容较为硬核且篇幅较长,可直接拉至文末“结论”部分获取最终评测结果。

01 评测对象、逻辑与标准

评测对象:我们挑选了国内主流的6大模型,包括深度求索(DeepSeek-R1)、阿里千问(Qwen3-235B-A22B)、腾讯混元(Hunyuan-T1)、月之暗面(Kimi-K1.5)、百度文心(ERNIE-X1-Turbo)和智谱(GLM-4-Plus)。

评测逻辑:我们采取了“分层进阶”的问题构建,设计了四个层级的测试,从基础到高级,逐步深入。每个层级都涵盖了不同的能力考核维度。

标准层面:我们对每一个模型都输入相同的提示词,以统一评测规则。

02 六项财务分析能力横评

1)精准的数据提取能力:模型能否从PDF财报中分毫不差地提取关键财务数据?此项能力的表现直接决定了后续所有分析的可靠性。

评测结论:所有模型都顺利完成了指定核心财务数据和特定项目费用的提取。其中,ERNIE-X1-Turbo、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B还将单位由千元转变为亿元,更加贴合用户习惯。

大模型财报分析力评测:谁最懂财务语言? 大模型 财报分析 AI财务分析师 财务语言能力 第1张图:Kimi-K1.5数据提取

2)严谨的计算与核验能力:模型能否运用正确的公式计算毛利率、流动比率等核心财务指标?

评测结论:六个模型中,仅有Kimi-K1.5未能通过这一项测试。它在计算毛利率和流动比率时出现了错误。

大模型财报分析力评测:谁最懂财务语言? 大模型 财报分析 AI财务分析师 财务语言能力 第2张图:Kimi-K1.5计算流动比率

3)高效的归纳与提炼能力:模型能否为不同受众提炼核心要点?

评测结论:各模型都能够以数据为支撑给出正确结论。其中,DeepSeek-R1、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B将结论分条罗列,结构层次更清晰。

4)敏锐的风险与情感识别能力:模型能否识别出财报中隐含的业务风险?

评测结论:除Kimi-K1.5以外,其他模型都能够根据财报中提及的说法分条列举潜在风险。DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B的回答最为清晰。

大模型财报分析力评测:谁最懂财务语言? 大模型 财报分析 AI财务分析师 财务语言能力 第3张图:Kimi-K1.5分析潜在业务风险

5)企业策略与定位推断能力:模型能否结合财报数据和自身知识,识别竞争格局?

评测结论:六个模型均能准确列出当前市场中最主要的竞争对手。但各模型在回答思路和数据推理上有所不同。

大模型财报分析力评测:谁最懂财务语言? 大模型 财报分析 AI财务分析师 财务语言能力 第4张图:GLM-4-Plus推断竞争策略

6)融合外部知识的联网比对能力:模型能否通过联网搜索获取竞争对手的财务数据?

评测结论:六个模型在联网信息搜集方面的能力均不理想。DeepSeek-R1和ERNIE-X1-Turbo的信息搜索能力相对较强,但依旧存在错误数据的情况。

03 结论

在不考虑联网信息搜索的情况下,对于专业的投资者或财务分析人士,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B是值得信赖的助理;对于普通用户或学生,ERNIE-X1-Turbo也是不错的选择。

然而,联网信息搜索的准确性是各模型现阶段难以跨越的门槛。因此,不建议使用联网搜索功能以获取重要财务数据。

大模型财报分析力评测:谁最懂财务语言? 大模型 财报分析 AI财务分析师 财务语言能力 第5张图:评测结果表格

本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。