
最近我们实测了一个挺有意思的 Agent 任务。
不是那种“问一句、答一句”的聊天测试。
而是把 Step 3.7 Flash 放进一个更接近真实生产环境的任务里:
让它完成一份招商银行(600036.SH)深度金融研究报告。
听起来像一句提示词就能解决?
真不是。
一份像样的金融研报,至少要经过这些步骤:
明确研究对象和报告深度 筛选宏观、行业、公司、估值、风险素材 分析结构化数据 生成图表 撰写长篇正式报告 做金融合规复核 输出可展示的 HTML 图文报告
这已经不是普通大模型问答了,这是一个完整 Agent 工作流。
而这次最关键的两个数字是:
总耗时约 85 秒。
单次复杂任务成本低至 1 毛钱级别。
这就有点意思了。
先看最终成果

上下滑动查看完整研究报告
报告标题是:
招商银行(600036.SH)深度研究报告:零售护城河下的盈利韧性与估值修复逻辑里面包含:
投资摘要 市场表现与行业背景 公司基本面分析 估值与同业比较 情景分析 风险因素 结论与后续跟踪指标 免责声明
而且不只是文字。
报告里还插入了股价趋势、同业估值、核心指标、风险雷达图。
这就从“AI 写了一段内容”,变成了“AI 交付了一份可展示成果”。
这个任务复杂在哪儿
很多模型都能写文章。
但 Agent 的难点不在“会不会写”。
难点在于:
能不能连续完成一整条任务链。
这次的流程大概是这样:

整个任务被拆成 6 个节点:
这里最关键的是:
Step 3.7 Flash 不是被当成一个聊天机器人用。
而是被放进一个真实任务流里,负责理解、筛选、分析、写作、复核这些高认知环节。
代码负责确定性的部分,比如读素材、生成图表、输出 HTML。
这才是 Agent 更合理的分工方式。
输入一份完整研究需求
这次输入也不是一句“分析一下招商银行”。
而是一份完整任务:

核心要求是:
请基于当前样例素材,撰写一份招商银行(600036.SH)深度金融研究报告。报告需要覆盖市场表现、行业背景、公司基本面、估值与同业比较、情景分析、风险因素和后续跟踪指标,并输出可用于汇报展示的图文版 HTML 报告。这种任务对模型的要求很高。
它不能只会“写得像”。
它还要知道:
哪些材料该用 哪些数据该分析 哪些结论不能说太满 哪些风险必须保留 最终结果如何组织成一份正式报告
这也是为什么我们说,Agent 效率正在成为下一阶段模型竞争的关键。
因为真实任务不是单点能力比拼,而是完整链路效率比拼。
素材不是一条行情,而是一整个研究包
为了让任务更接近真实研究过程,我们没有只给一条股价。
而是准备了一份离线研究素材库。
里面包括:
公司业务画像 宏观与行业背景 近 10 个观察点的股价趋势 ROE、净息差、不良率、资本充足率、股息率等核心指标 同业 PB、PE、ROE、股息率对比 行业研究、公司研究、宏观研究、估值研究、风险研究素材 风险评分
这样做的好处是,模型不是凭空“编研报”。
它是在已有素材上做筛选、归纳和组织。
这更符合生产级 Agent 的实际用法。
85秒跑完,过程长这样
本次完整任务的运行日志如下:

Router: 3097 msMaterialRetriever: 9269 msDataAnalyst: 19711 msChartBuilder: 7 msReportWriter: 30866 msCompliance: 21756 msTOTAL: 84722 ms85 秒看起来不算“秒回”。
但注意,这里不是普通聊天。
它完成的是:
1 次任务路由 1 次素材筛选 1 次数据分析 4 张图表生成 1 份长篇金融研报 1 次合规复核 1 个 HTML 图文页面
如果人工做这件事,不要说 85 秒,85 分钟都不一定够。
所以这个速度放在复杂 Agent 任务里,已经很有冲击力。
成本才是真正的重点
更狠的是成本。
这种多步骤任务,通常最怕什么?
不是跑不出来。
而是每跑一次都贵。
Agent 一旦进入生产场景,就会频繁调用模型。
路由要调一次。
分析要调一次。
写报告要调一次。
复核还要调一次。
如果每一步都很贵,Agent 就很难规模化。
这次复杂任务的执行成本可以压到 1 毛钱级别。

这就是 Flash 模型在 Agent 场景里的优势。
不是只看单次问答价格。
而是看完整任务链路的完成成本。
当一个复杂任务既能跑完,又能把成本压下来,才有进入真实业务的可能。
可视化输出也很关键
很多 Agent Demo 最大的问题是:
终端里跑得很热闹,用户看完没感觉。
这次我们把最终结果做成了 HTML 图文报告。

报告里有图、有分节、有风险提示、有免责声明。
它更像一个真实交付物,而不是一段模型回复。
这点很重要。
因为 Agent 的价值,最终不是“模型说了什么”。
而是“它交付了什么”。
Step 3.7 Flash适合怎样的 Agent?
从这个案例看,Step 3.7 Flash 很适合这类任务:
- 多步骤任务
不是一次回答,而是多节点串联。
- 上下文密集任务
需要同时处理公司、行业、估值、风险等多类信息。
- 工具协作任务
模型负责分析和生成,代码负责图表、文件和页面。
- 成本敏感任务
每次任务需要多次模型调用,必须控制单次执行成本。
- 交付导向任务
最终不是聊天记录,而是报告、网页、图表、文档这类可交付成果。
这也是为什么说:
Step 3.7 Flash 不是单纯更快、更便宜的 Flash 模型。
它更适合被理解为:
面向生产级 Agent 的高效率 Flash 模型。
这就是Agent效率的具体含义——不只是单次响应够快,而是整条任务链路能跑完、能交付、能控制成本。
最后说说
如果只拿 Step 3.7 Flash 做普通问答测试,很容易低估它。
因为真正的 Agent 场景,不是看模型能不能回答一句话。
而是看它能不能在多轮、工具密集、上下文密集的任务里,稳定完成完整工作流。
这个金融研报 Agent 给了一个很直观的答案:
能拆任务、能筛素材、能做分析、能写长报告。
能配合代码生成图表、还能做合规复核。
最重要的是,成本还能压到非常低。
对于开发者来说,这意味着一件事:
Flash模型不再只是更快、更便宜的旗舰模型替代品。
它正在变成Agent落地时非常现实的选择!