不是那种短视频口播,是一个正经的深度研报风格视频——2026年A股新主线的完整分析,有配音、有字幕、有图表、有双屏对比。全长大约十分钟。
成品先放这儿,你可以先拉一下感受感受。
整个过程我想完整记录一下,不是为了教你怎么做,纯粹是分享——我自己回头看都觉得挺神奇。
第一步:让AI生成研究报告
我打开WorkBuddy,选择了一个“金融投资专家”,模板选择“深度研究”,跟它说我想问的白话,他就开始帮我开始研究了。

就是这段话。没给大纲,没给任何材料,没指定任何方向。
十来分钟后,一份结构完整的研报就出来了。从宏观背景到政策梳理,从资金面到几个重点赛道的逻辑拆解,还带了数据对比。我读了一遍,说实话,比我自己花半天翻券商报告整理出来的还清晰。
第二步:让报告可视化
报告是好的,但我想做成视频的话,光有文字不行。
于是我让WorkBuddy把这份报告转成一个可视化页面。
我新建任务,召唤了图标设计与渲染专家,并选择了日常办公的“数据分析及可视化”模板,让她帮我做页面。

就是一个静态HTML,它把每个章节拆成了不同的板块——开头的宏观面板用图表展示资金流向,中间把几个细分赛道做了并排对比,该用图的地方用图,该突出数字的地方突出数字。

我没提任何设计要求,就是「把这份报告做成一个好看的可视化页面」。它自己决定用什么布局,什么颜色,什么地方放表格什么地方放图表。

第三步:让声音像我自己说的
视频不能没声音。我想来想去,不想用那种机械的TTS朗读,也不想花钱请人配音。
之前我用CosyVoice克隆了自己的音色——就是录了一小段话,上传到阿里云的百炼平台,几分钟就训练好了一个跟我声音一样的模型。
然后我把报告的旁白文案丢给它,它就用「我自己的声音」把整篇报告念出来了。语调自然,停顿正常,甚至一些感叹的地方还有情绪的起伏。
每次听到自己的声音在念那些数据分析,都觉得很奇妙。

第四步:Marvis搭建视频工作流
这是最关键的一步。
上面那些——报告、可视化页面、配音音频——都有了。但怎么把它们合成一个完整的视频?字幕怎么加?画面怎么跟着音频走?横屏做完了要不要再做一版竖屏的?
我确实不会。
但我跟Marvis说:
“素人投资笔记风格,而且我觉得重点是介绍我这个视频是怎么做的,我是用workbuddy的“投资专家”和“深度研究”模板帮我生成的研究报告,然后用“图表设计专家”和“数据分析及可视化”模板帮我制作了带动效的静态html文档,现在让你使用Remotion+系列视频制作工作流来帮我生成视频,这个AI工作流我觉得是值得分享的。”

就是这句话。没什么特殊格式,没有教程里那种结构化提示词。
Marvis先是帮我建了一个完整的项目目录,然后自动分析了所有素材——配音每段多长、每段音频对应的文字是什么、可视化页面长什么样。接着它自己写了视频组件、配了字幕时间轴、设了每个章节的转场动画。
中间当然出了几个问题。有些章节字幕不显示,有些画面切不过去。但每次我只要截图告诉它「这里不对」,它就能自己排查出来哪里出了问题,修好了继续。
最后渲染出了完整的1分钟视频。
第五步:再来一版竖屏
横屏出来了,我又跟Marvis说:「再来一版竖屏的。」
它自己调整了布局——横屏里左右分屏的对比,竖屏里改成上下堆叠;字号和间距按新比例重新算了一遍;字幕位置也挪到了更适合竖屏阅读的地方。
又跑了一遍渲染,竖屏版也出来了。

用到的工具链
整个过程用到的工具其实就这几个:
WorkBuddy:生成报告和可视化页面 CosyVoice(阿里云百炼):克隆音色 + 配音 Marvis:搭建Remotion项目、管理整个视频工作流 Remotion:最终渲染视频(我没直接用,是Marvis在操作)
没有复杂的操作,没有写过一行代码(至少我没有)。大部分情况就是我跟AI说话,它做,做不对我再说话,它改。
成本方面,CosyVoice的克隆和配音加起来花了几块钱。其他工具都是本地跑的,没有额外费用。
如果你也在琢磨怎么用AI做内容,我的建议特别简单:先从一个具体的需求开始。别说「我要学AI」,说「我今天想用AI做一份报告」或者「我今天想用AI做一条视频」。需求越具体,AI给你的帮助越直接。
你有什么想问的或者踩过的坑,评论区直接说。