不到 1 毛钱,跑完一个金融研报 Agent:Step 3.7 Flash 有点狠

最近我们实测了一个挺有意思的 Agent 任务。

不是那种“问一句、答一句”的聊天测试。

而是把 Step 3.7 Flash 放进一个更接近真实生产环境的任务里：

让它完成一份招商银行（600036.SH）深度金融研究报告。

听起来像一句提示词就能解决？

真不是。

一份像样的金融研报，至少要经过这些步骤：

明确研究对象和报告深度
筛选宏观、行业、公司、估值、风险素材
分析结构化数据
生成图表
撰写长篇正式报告
做金融合规复核
输出可展示的 HTML 图文报告

这已经不是普通大模型问答了，这是一个完整 Agent 工作流。

而这次最关键的两个数字是：

总耗时约 85 秒。

单次复杂任务成本低至 1 毛钱级别。

这就有点意思了。

先看最终成果

最终生成的不是一段聊天记录，而是一份可以打开看的 HTML 金融研究报告

上下滑动查看完整研究报告

报告标题是：

招商银行（600036.SH）深度研究报告：零售护城河下的盈利韧性与估值修复逻辑

里面包含：

投资摘要
市场表现与行业背景
公司基本面分析
估值与同业比较
情景分析
风险因素
结论与后续跟踪指标
免责声明

而且不只是文字。

报告里还插入了股价趋势、同业估值、核心指标、风险雷达图。

这就从“AI 写了一段内容”，变成了“AI 交付了一份可展示成果”。

这个任务复杂在哪儿

很多模型都能写文章。

但 Agent 的难点不在“会不会写”。

难点在于：

能不能连续完成一整条任务链。

这次的流程大概是这样：

整个任务被拆成 6 个节点：

环节	作用
Router	识别研究任务、公司、代码和报告深度
Material Retriever	从素材库中筛选关键研究材料
Data Analyst	提炼市场、基本面、估值和风险观察
Chart Builder	生成 SVG 图表
Report Writer	撰写长篇金融研究报告
Compliance	复核金融合规与敏感表达

这里最关键的是：

Step 3.7 Flash 不是被当成一个聊天机器人用。

而是被放进一个真实任务流里，负责理解、筛选、分析、写作、复核这些高认知环节。

代码负责确定性的部分，比如读素材、生成图表、输出 HTML。

这才是 Agent 更合理的分工方式。

输入一份完整研究需求

这次输入也不是一句“分析一下招商银行”。

而是一份完整任务：

核心要求是：

请基于当前样例素材，撰写一份招商银行（600036.SH）深度金融研究报告。报告需要覆盖市场表现、行业背景、公司基本面、估值与同业比较、情景分析、风险因素和后续跟踪指标，并输出可用于汇报展示的图文版 HTML 报告。

这种任务对模型的要求很高。

它不能只会“写得像”。

它还要知道：

哪些材料该用
哪些数据该分析
哪些结论不能说太满
哪些风险必须保留
最终结果如何组织成一份正式报告

这也是为什么我们说，Agent 效率正在成为下一阶段模型竞争的关键。

因为真实任务不是单点能力比拼，而是完整链路效率比拼。

素材不是一条行情，而是一整个研究包

为了让任务更接近真实研究过程，我们没有只给一条股价。

而是准备了一份离线研究素材库。

里面包括：

公司业务画像
宏观与行业背景
近 10 个观察点的股价趋势
ROE、净息差、不良率、资本充足率、股息率等核心指标
同业 PB、PE、ROE、股息率对比
行业研究、公司研究、宏观研究、估值研究、风险研究素材
风险评分

这样做的好处是，模型不是凭空“编研报”。

它是在已有素材上做筛选、归纳和组织。

这更符合生产级 Agent 的实际用法。

85秒跑完，过程长这样

本次完整任务的运行日志如下：

Router: 3097 msMaterialRetriever: 9269 msDataAnalyst: 19711 msChartBuilder: 7 msReportWriter: 30866 msCompliance: 21756 msTOTAL: 84722 ms

85 秒看起来不算“秒回”。

但注意，这里不是普通聊天。

它完成的是：

1 次任务路由
1 次素材筛选
1 次数据分析
4 张图表生成
1 份长篇金融研报
1 次合规复核
1 个 HTML 图文页面

如果人工做这件事，不要说 85 秒，85 分钟都不一定够。

所以这个速度放在复杂 Agent 任务里，已经很有冲击力。

成本才是真正的重点

更狠的是成本。

这种多步骤任务，通常最怕什么？

不是跑不出来。

而是每跑一次都贵。

Agent 一旦进入生产场景，就会频繁调用模型。

路由要调一次。

分析要调一次。

写报告要调一次。

复核还要调一次。

如果每一步都很贵，Agent 就很难规模化。

这次复杂任务的执行成本可以压到 1 毛钱级别。

这就是 Flash 模型在 Agent 场景里的优势。

不是只看单次问答价格。

而是看完整任务链路的完成成本。

当一个复杂任务既能跑完，又能把成本压下来，才有进入真实业务的可能。

可视化输出也很关键

很多 Agent Demo 最大的问题是：

终端里跑得很热闹，用户看完没感觉。

这次我们把最终结果做成了 HTML 图文报告。

报告里有图、有分节、有风险提示、有免责声明。

它更像一个真实交付物，而不是一段模型回复。

这点很重要。

因为 Agent 的价值，最终不是“模型说了什么”。

而是“它交付了什么”。

Step 3.7 Flash适合怎样的 Agent？

从这个案例看，Step 3.7 Flash 很适合这类任务：

多步骤任务

不是一次回答，而是多节点串联。

上下文密集任务

需要同时处理公司、行业、估值、风险等多类信息。

工具协作任务

模型负责分析和生成，代码负责图表、文件和页面。

成本敏感任务

每次任务需要多次模型调用，必须控制单次执行成本。

交付导向任务

最终不是聊天记录，而是报告、网页、图表、文档这类可交付成果。

这也是为什么说：

Step 3.7 Flash 不是单纯更快、更便宜的 Flash 模型。

它更适合被理解为：

面向生产级 Agent 的高效率 Flash 模型。

这就是Agent效率的具体含义——不只是单次响应够快，而是整条任务链路能跑完、能交付、能控制成本。

最后说说

如果只拿 Step 3.7 Flash 做普通问答测试，很容易低估它。

因为真正的 Agent 场景，不是看模型能不能回答一句话。

而是看它能不能在多轮、工具密集、上下文密集的任务里，稳定完成完整工作流。

这个金融研报 Agent 给了一个很直观的答案：

能拆任务、能筛素材、能做分析、能写长报告。

能配合代码生成图表、还能做合规复核。

最重要的是，成本还能压到非常低。

对于开发者来说，这意味着一件事：

Flash模型不再只是更快、更便宜的旗舰模型替代品。

它正在变成Agent落地时非常现实的选择！

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ZBlogIt

Nice to meet you, too!

不到 1 毛钱,跑完一个金融研报 Agent:Step 3.7 Flash 有点狠

wang 发表于2026-05-30 19:18:45 浏览2 评论0

先看最终成果

这个任务复杂在哪儿

Step 3.7 Flash适合怎样的 Agent？

少长咸集