×

不到 1 毛钱,跑完一个金融研报 Agent:Step 3.7 Flash 有点狠

wang wang 发表于2026-05-30 19:18:45 浏览2 评论0

抢沙发发表评论

不到 1 毛钱,跑完一个金融研报 Agent:Step 3.7 Flash 有点狠

最近我们实测了一个挺有意思的 Agent 任务。

不是那种“问一句、答一句”的聊天测试。

而是把 Step 3.7 Flash 放进一个更接近真实生产环境的任务里:

让它完成一份招商银行(600036.SH)深度金融研究报告。

听起来像一句提示词就能解决?

真不是。

一份像样的金融研报,至少要经过这些步骤:

  • 明确研究对象和报告深度
  • 筛选宏观、行业、公司、估值、风险素材
  • 分析结构化数据
  • 生成图表
  • 撰写长篇正式报告
  • 做金融合规复核
  • 输出可展示的 HTML 图文报告

这已经不是普通大模型问答了,这是一个完整 Agent 工作流。

而这次最关键的两个数字是:

总耗时约 85 秒。

单次复杂任务成本低至 1 毛钱级别。

这就有点意思了。

先看最终成果
最终生成的不是一段聊天记录,而是一份可以打开看的 HTML 金融研究报告

上下滑动查看完整研究报告

报告标题是:

招商银行(600036.SH)深度研究报告:零售护城河下的盈利韧性与估值修复逻辑

里面包含:

  • 投资摘要
  • 市场表现与行业背景
  • 公司基本面分析
  • 估值与同业比较
  • 情景分析
  • 风险因素
  • 结论与后续跟踪指标
  • 免责声明

而且不只是文字。

报告里还插入了股价趋势、同业估值、核心指标、风险雷达图。

这就从“AI 写了一段内容”,变成了“AI 交付了一份可展示成果”。

这个任务复杂在哪儿

很多模型都能写文章。

但 Agent 的难点不在“会不会写”。

难点在于:

能不能连续完成一整条任务链。

这次的流程大概是这样:

整个任务被拆成 6 个节点:

环节
作用
Router
识别研究任务、公司、代码和报告深度
Material Retriever
从素材库中筛选关键研究材料
Data Analyst
提炼市场、基本面、估值和风险观察
Chart Builder
生成 SVG 图表
Report Writer
撰写长篇金融研究报告
Compliance
复核金融合规与敏感表达

这里最关键的是:

Step 3.7 Flash 不是被当成一个聊天机器人用。

而是被放进一个真实任务流里,负责理解、筛选、分析、写作、复核这些高认知环节。

代码负责确定性的部分,比如读素材、生成图表、输出 HTML。

这才是 Agent 更合理的分工方式。

输入一份完整研究需求

这次输入也不是一句“分析一下招商银行”。

而是一份完整任务:

核心要求是:

请基于当前样例素材,撰写一份招商银行(600036.SH)深度金融研究报告。报告需要覆盖市场表现、行业背景、公司基本面、估值与同业比较、情景分析、风险因素和后续跟踪指标,并输出可用于汇报展示的图文版 HTML 报告。

这种任务对模型的要求很高。

它不能只会“写得像”。

它还要知道:

  • 哪些材料该用
  • 哪些数据该分析
  • 哪些结论不能说太满
  • 哪些风险必须保留
  • 最终结果如何组织成一份正式报告

这也是为什么我们说,Agent 效率正在成为下一阶段模型竞争的关键。

因为真实任务不是单点能力比拼,而是完整链路效率比拼。

素材不是一条行情,而是一整个研究包

为了让任务更接近真实研究过程,我们没有只给一条股价。

而是准备了一份离线研究素材库。

里面包括:

  • 公司业务画像
  • 宏观与行业背景
  • 近 10 个观察点的股价趋势
  • ROE、净息差、不良率、资本充足率、股息率等核心指标
  • 同业 PB、PE、ROE、股息率对比
  • 行业研究、公司研究、宏观研究、估值研究、风险研究素材
  • 风险评分

这样做的好处是,模型不是凭空“编研报”。

它是在已有素材上做筛选、归纳和组织。

这更符合生产级 Agent 的实际用法。

85秒跑完,过程长这样

本次完整任务的运行日志如下:

Router: 3097 msMaterialRetriever: 9269 msDataAnalyst: 19711 msChartBuilder: 7 msReportWriter: 30866 msCompliance: 21756 msTOTAL: 84722 ms

85 秒看起来不算“秒回”。

但注意,这里不是普通聊天。

它完成的是:

  • 1 次任务路由
  • 1 次素材筛选
  • 1 次数据分析
  • 4 张图表生成
  • 1 份长篇金融研报
  • 1 次合规复核
  • 1 个 HTML 图文页面

如果人工做这件事,不要说 85 秒,85 分钟都不一定够。

所以这个速度放在复杂 Agent 任务里,已经很有冲击力。

成本才是真正的重点

更狠的是成本。

这种多步骤任务,通常最怕什么?

不是跑不出来。

而是每跑一次都贵。

Agent 一旦进入生产场景,就会频繁调用模型。

路由要调一次。

分析要调一次。

写报告要调一次。

复核还要调一次。

如果每一步都很贵,Agent 就很难规模化。

这次复杂任务的执行成本可以压到 1 毛钱级别

这就是 Flash 模型在 Agent 场景里的优势。

不是只看单次问答价格。

而是看完整任务链路的完成成本。

当一个复杂任务既能跑完,又能把成本压下来,才有进入真实业务的可能。

可视化输出也很关键

很多 Agent Demo 最大的问题是:

终端里跑得很热闹,用户看完没感觉。

这次我们把最终结果做成了 HTML 图文报告。

报告里有图、有分节、有风险提示、有免责声明。

它更像一个真实交付物,而不是一段模型回复。

这点很重要。

因为 Agent 的价值,最终不是“模型说了什么”。

而是“它交付了什么”。

Step 3.7 Flash适合怎样的 Agent?

从这个案例看,Step 3.7 Flash 很适合这类任务:

  1. 多步骤任务

不是一次回答,而是多节点串联。

  1. 上下文密集任务

需要同时处理公司、行业、估值、风险等多类信息。

  1. 工具协作任务

模型负责分析和生成,代码负责图表、文件和页面。

  1. 成本敏感任务

每次任务需要多次模型调用,必须控制单次执行成本。

  1. 交付导向任务

最终不是聊天记录,而是报告、网页、图表、文档这类可交付成果。

这也是为什么说:

Step 3.7 Flash 不是单纯更快、更便宜的 Flash 模型。

它更适合被理解为:

面向生产级 Agent 的高效率 Flash 模型。

这就是Agent效率的具体含义——不只是单次响应够快,而是整条任务链路能跑完、能交付、能控制成本。

最后说说

如果只拿 Step 3.7 Flash 做普通问答测试,很容易低估它。

因为真正的 Agent 场景,不是看模型能不能回答一句话。

而是看它能不能在多轮、工具密集、上下文密集的任务里,稳定完成完整工作流。

这个金融研报 Agent 给了一个很直观的答案:

能拆任务、能筛素材、能做分析、能写长报告。

能配合代码生成图表、还能做合规复核。

最重要的是,成本还能压到非常低。

对于开发者来说,这意味着一件事:

Flash模型不再只是更快、更便宜的旗舰模型替代品。

它正在变成Agent落地时非常现实的选择!