×

AI研报升级,我们把评测标准开源了

wang wang 发表于2026-05-21 14:34:24 浏览1 评论0

抢沙发发表评论

AI研报升级,我们把评测标准开源了

AI 研报是财搭子的基本盘,研报的基本盘,是数据准确。

如果一篇研报里,股价、营收、净利润、ROE 这些关键数据都可能出错,它写得再像专家,也没有意义。

过去一段时间,我们主要在升级「Agent 模式」。与此同时,用户群里陆续有搭子反馈研报效果的问题。有人指出信息滞后,有人觉得关键结论缺少可追溯来源,也有人直接说:数据不可信。这些我们都看到并认真记录了。

这一周,我们停下了一部分版本迭代,对着用户反馈和研报数据一项一项抠。最后我们确认了一件事:

这不只是某一篇研报没写好,而是我们需要一套公开、可检查、可持续改进的质量标准。

最近,我们完成了一次财搭子研报能力升级。同时,我们决定把升级背后的研报评测体系开源出来。不是让你只听我们说「变好了」。而是让你能看到,我们到底怎么定义一份 AI 研报是否可信。

AI 研报不怕被评测,才值得被信任。

  一、我们怎么评测一份研报?  

我们把研报评测拆成 4 个维度:

第一,事实数据(40 分)

比如股价、市值、营收、净利润、ROE、估值、行业数据等。

第二,结果数据(30 分)

比如同比、环比、估值分位、财务指标衍生值等。不仅数据拿对了,还要算对,推理过程也要可回溯。

第三,分析一致性(20 分)

一篇研报不能前面说基本面改善,后面又在没有新证据的情况下得出相反结论。观点可以有保留,但逻辑链条要能顺着读下来。

第四,研报合规与可视化(10 分)

风险提示要具体,不能只写空话。图表、引用、时间戳、结论边界也要清楚。AI 研报不能替用户做投资决策。

本次升级,我们选取了财搭子热门的近300篇研报,按照评测标准,结果如下:

指标名

改进前

改进后

重要数据准确率

91.49%

98.84%

研报准确率(全对才是对)

71.06%

94.6%

研报幻觉率(错一个就是错)

28.94%

5.4%

研报平均分

89.7

91

评测研报数

273

278

这里有三个数字,我们特别在意。

重要数据准确率,从 91.49% 提升到 98.84%

重要数据包括股价、营收、净利润、ROE 等最基础、也最不应该出错的数据。

研报准确率,从 71.06% 提升到 94.60%

这个指标更严格:一篇研报里,只要有一个关键项错了,就不算全对。它更接近你真实阅读研报时的体感。因为用户不会说「这篇研报大部分是对的,所以可以忽略一个关键错误」。

研报幻觉率,从 28.94% 降到 5.40%

我们采用「错一个就是不合格」的严格口径,不是为了把数据做得好看,而是为了逼自己面对 AI 研报最核心的问题:它不能只看起来专业,它必须尽可能少犯基础错误。

当然,这些数字不代表财搭子研报已经完美。它更像一条新的基准线:以后每一次模型、数据、Agent 能力升级,都要重新过这套评测。

  二、我们具体做了什么?  

这次升级做的事情,并不性感。全是 dirty work。

第一,查数据和写研报分开

过去,查数据和写研报容易混在同一个生成流程里。现在,我们把「查数据」和「写研报」拆开。查数据的 Agent 只负责把数据找准、标清楚;写研报的 Agent 再基于结构化结果做分析。

第二,给关键事实补上时间戳

行情、财务、公告、行业数据,都有自己的时效性。关键事实必须带时间戳:什么时候的数据,来自哪里,用的是什么口径,都要尽量说清楚。

第三,构建指标字典

净利润、归母净利润、扣非净利润,看起来都像「利润」,但含义不同。PE、PB、ROE、毛利率、经营现金流,也各自有不同的数据源和计算口径。我们把这些指标拆成字典,让 Agent 知道某个指标应该去哪找、用哪个字段、按什么口径解释。

第四,容易混淆的字段做二次确认

比如财报期和公告期混淆,归母净利润和净利润混淆,单季度数据和累计数据混淆。这类字段,现在不能直接出结果,要进入二次确认流程。这次优化,主要来自我们对Harness工程的持续打磨:拆流程、补口径、加校验、做回归。下一步,我们会继续优化观点前后一致性,并把更多数据项纳入评测体系。

  三、为什么我们要开源 Eval?  

AI 研报不难生成。难的是:生成之后,怎么判断它是否可信。我们不希望用户只能凭感觉判断一篇研报好不好,也不希望每次升级都只说一句「我们优化了」。所以这一次,我们把评测标准交出来。你可以看到我们如何检查数据准确率,如何判断结论是否有依据,如何识别前后矛盾,如何约束合规边界。

使用说明

如果你是财搭子用户,可以打开 App,选一只你熟悉的标的,让大发重新生成一份研报。

如果你是同行、开发者,或者对 AI Eval 感兴趣,也欢迎去 GitHub 跑一遍样例。

仓库地址:https://github.com/vyuv-ye/report-eval/tree/main

我们开放说明文档、研报样例、评测指标与打分规则。欢迎提 issue,也欢迎 PR。每一条,我们都会认真看。

财搭子已经上线「Agent 模式」。底层能力也正在全面 Skill 化,财搭子 Skill 很快会和大家见面。

我们相信,长期信任来自透明、可复现。

财搭子

致力于成为每个投资者专业、省心的智能投资伙伴