AI研报升级,我们把评测标准开源了

AI 研报是财搭子的基本盘，研报的基本盘，是数据准确。

如果一篇研报里，股价、营收、净利润、ROE 这些关键数据都可能出错，它写得再像专家，也没有意义。

过去一段时间，我们主要在升级「Agent 模式」。与此同时，用户群里陆续有搭子反馈研报效果的问题。有人指出信息滞后，有人觉得关键结论缺少可追溯来源，也有人直接说：数据不可信。这些我们都看到并认真记录了。

这一周，我们停下了一部分版本迭代，对着用户反馈和研报数据一项一项抠。最后我们确认了一件事：

这不只是某一篇研报没写好，而是我们需要一套公开、可检查、可持续改进的质量标准。

最近，我们完成了一次财搭子研报能力升级。同时，我们决定把升级背后的研报评测体系开源出来。不是让你只听我们说「变好了」。而是让你能看到，我们到底怎么定义一份 AI 研报是否可信。

AI 研报不怕被评测，才值得被信任。

一、我们怎么评测一份研报？

我们把研报评测拆成 4 个维度：

第一，事实数据（40 分）

比如股价、市值、营收、净利润、ROE、估值、行业数据等。

第二，结果数据（30 分）

比如同比、环比、估值分位、财务指标衍生值等。不仅数据拿对了，还要算对，推理过程也要可回溯。

第三，分析一致性（20 分）

一篇研报不能前面说基本面改善，后面又在没有新证据的情况下得出相反结论。观点可以有保留，但逻辑链条要能顺着读下来。

第四，研报合规与可视化（10 分）

风险提示要具体，不能只写空话。图表、引用、时间戳、结论边界也要清楚。AI 研报不能替用户做投资决策。

本次升级，我们选取了财搭子热门的近300篇研报，按照评测标准，结果如下：

指标名	改进前	改进后
重要数据准确率	91.49%	98.84%
研报准确率（全对才是对）	71.06%	94.6%
研报幻觉率（错一个就是错）	28.94%	5.4%
研报平均分	89.7	91
评测研报数	273	278

这里有三个数字，我们特别在意。

重要数据准确率，从 91.49% 提升到 98.84%

重要数据包括股价、营收、净利润、ROE 等最基础、也最不应该出错的数据。

研报准确率，从 71.06% 提升到 94.60%

这个指标更严格：一篇研报里，只要有一个关键项错了，就不算全对。它更接近你真实阅读研报时的体感。因为用户不会说「这篇研报大部分是对的，所以可以忽略一个关键错误」。

研报幻觉率，从 28.94% 降到 5.40%

我们采用「错一个就是不合格」的严格口径，不是为了把数据做得好看，而是为了逼自己面对 AI 研报最核心的问题：它不能只看起来专业，它必须尽可能少犯基础错误。

当然，这些数字不代表财搭子研报已经完美。它更像一条新的基准线：以后每一次模型、数据、Agent 能力升级，都要重新过这套评测。

二、我们具体做了什么？

这次升级做的事情，并不性感。全是 dirty work。

第一，查数据和写研报分开

过去，查数据和写研报容易混在同一个生成流程里。现在，我们把「查数据」和「写研报」拆开。查数据的 Agent 只负责把数据找准、标清楚；写研报的 Agent 再基于结构化结果做分析。

第二，给关键事实补上时间戳

行情、财务、公告、行业数据，都有自己的时效性。关键事实必须带时间戳：什么时候的数据，来自哪里，用的是什么口径，都要尽量说清楚。

第三，构建指标字典

净利润、归母净利润、扣非净利润，看起来都像「利润」，但含义不同。PE、PB、ROE、毛利率、经营现金流，也各自有不同的数据源和计算口径。我们把这些指标拆成字典，让 Agent 知道某个指标应该去哪找、用哪个字段、按什么口径解释。

第四，容易混淆的字段做二次确认

比如财报期和公告期混淆，归母净利润和净利润混淆，单季度数据和累计数据混淆。这类字段，现在不能直接出结果，要进入二次确认流程。这次优化，主要来自我们对Harness工程的持续打磨：拆流程、补口径、加校验、做回归。下一步，我们会继续优化观点前后一致性，并把更多数据项纳入评测体系。

三、为什么我们要开源 Eval？

AI 研报不难生成。难的是：生成之后，怎么判断它是否可信。我们不希望用户只能凭感觉判断一篇研报好不好，也不希望每次升级都只说一句「我们优化了」。所以这一次，我们把评测标准交出来。你可以看到我们如何检查数据准确率，如何判断结论是否有依据，如何识别前后矛盾，如何约束合规边界。

使用说明

如果你是财搭子用户，可以打开 App，选一只你熟悉的标的，让大发重新生成一份研报。

如果你是同行、开发者，或者对 AI Eval 感兴趣，也欢迎去 GitHub 跑一遍样例。

仓库地址：https://github.com/vyuv-ye/report-eval/tree/main

我们开放说明文档、研报样例、评测指标与打分规则。欢迎提 issue，也欢迎 PR。每一条，我们都会认真看。

财搭子已经上线「Agent 模式」。底层能力也正在全面 Skill 化，财搭子 Skill 很快会和大家见面。

我们相信，长期信任来自透明、可复现。

财搭子

致力于成为每个投资者专业、省心的智能投资伙伴

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ZBlogIt

Nice to meet you, too!

AI研报升级,我们把评测标准开源了

wang 发表于2026-05-21 14:34:24 浏览1 评论0

少长咸集