×

AI写研报行业研究报告

wang wang 发表于2026-01-21 14:52:17 浏览1 评论0

抢沙发发表评论

AI写研报行业研究报告

目录

第一章 行业概况

1.1 行业概览

1.1.1 行业定义与研究边界

1.1.2 产业链结构

1.1.3 行业基本介绍

1.2 行业发展历程

第二章 商业模式和技术发展

2.1 产业链商业模式

2.1.1 AI 写研报产业链

2.1.2 商业模式

2.2技术发展

2.2.1 AI发展简史

2.2.2 核心技术栈深度解析

2.2.3 技术准确率与效率提升

2.2.4 技术发展趋势展望

第三章 行业发展和驱动机制及风险管理

3.1行业发展

3.1.1 整体市场规模与增长态势

3.1.2 行业发展阶段与核心特征

3.1.3 区域与场景拓展趋势

3.1.4 行业发展面临的阶段性瓶颈

3.2驱动因素

3.3风险管理

3.4中国企业主要参与者

3.5国际主要参与者

第四章 AI写新三板个股报告的具体方法论

4.1 研究目标定义与系统化工作流建模

4.2多源信息采集与预处理工程

4.3 AI模型构建与预测

4.3.1 数据预处理层

4.3.2 模型算法层

4.4分章节AI内容生成与报告合成

4.5人机协同深度研判与关键决策

4.6合规质检、发布与知识管理

第五章 未来展望

5.1 未来发展趋势:从“人机协同”向“全自动生产线”演进

5.2 供应需求发展与竞争格局:认知优势取代信息优势

5.3 技术发展和产品及服务升级:数字化团队与模块化

5.4 监管与收入利润展望:角色重塑与合规审计

第六章 规划与数据来源

第一章行业概况

1.1 行业概览

1.1.1 行业定义与研究边界

1.行业定义 

本报告所研究的“AI写研报”,并非泛指通用大模型的文本生成或写作辅助能力,而是指以大模型为核心,结合金融数据接口、检索增强生成(RAG)、多智能体协同等技术手段,系统性参与金融研究“信息获取—分析推演—内容生成—一致性校验”全过程的智能研究系统 。与传统意义上的写作工具或智能助手不同,AI 写研报具有以下显著特征:

(1)应用对象机构化: 其主要应用对象为机构级研究场景,包括券商卖方研究、买方投研支持及咨询研究,而非面向散户的信息输出或营销内容生成 。

(2)核心能力结构化: 其核心价值不在于语言表达能力,而在于对金融数据、研究逻辑与分析框架的结构化理解与调用能力 。

(3)功能定位流程化: 其目标并非替代研究人员的判断职能,而是通过流程重构,提高研究生产的效率、一致性与可复制性 。

2.研究边界

基于上述定义,本报告不涵盖泛 AI 写作工具及通用聊天机器人;不涉及量化交易、自动交易或投资执行系统;亦不讨论面向散户的投顾内容生成或营销类应用 。此次报告的核心对象,是直接参与研报生产、具备金融数据对接能力与合规约束要求的 AI 投研系统与平台 。

1.1.2 产业链结构

产业链简述:

上游通用大模型厂商(OpenAI等)与金融数据供应商(Wind/iFind/Bloomberg提供清洗后的结构化数据)。

中游智能投研系统开发商及具备自研能力的头部券商,负责将通用模型与金融逻辑结合,开发RAG与Agent系统。

下游:卖方研究所、买方资产管理公司及咨询公司,作为最终使用者。

1.1.3 行业基本介绍

鉴于“AI写研报”属于新兴技术服务领域,其行业基本面主要反映在“数据供给(原料)”、“从业人员(用户)”与“利税规模(商业环境)”三个维度的供需错配上。传统研报体系高度依赖人工,其核心矛盾在于研究流程难以规模化,导致边际研究成本随覆盖范围扩大而显著上升 。

1.行业数据产值环境:指数级的数据爆发

全球数据圈(Global Datasphere)规模预测(2018-2028)

行业产值的基础在于数据处理能力。全球数据总量呈现指数级爆发根据 IDC 2024年发布的最新预测,如上图最新数据显示,全球数据总量正经历一轮惊人的指数级爆发总量飙升全球数据圈规模预计将从2018年的39.9 ZB激增至2028年的393.8 ZB,十年间预计增长倍数高达9.8倍。加速趋势即使在基数庞大的今天,预计的2023-2028年的年均复合增长率(CAGR)仍高达24.4%。面对如此量级且高速膨胀的非结构化数据(新闻、公告、舆情),传统依靠人工手动收集与阅读的模式已触及极限,客观上倒逼投研生产力必须从“手工作坊”向“AI自动化工厂”转型。

2. 从业人员数:线性增长的人力瓶颈

2近年来券商分析师人数增长情况

作为该行业的核心用户群体,分析师人数近年来保持增长态势。截至2024 年末,国内分析师人数已突破5000人(见上图)。然而,单纯依靠增加人力投入的研究生产方式,已难以匹配机构对效率、成本与稳定产出的要求 。由于人力仅呈线性增长,导致中小市值公司及长尾行业研究覆盖不足 ,这构成了AI写研报行业巨大的潜在渗透空间。

3. 利税与收入规模背景:佣金承压倒逼降本

3近年来券商分仓佣金总额及增速波动情况

在卖方研究佣金承压、咨询项目周期不断压缩的背景下(见上图佣金增速下滑趋势),行业利润空间被压缩。传统模式下,人工录入、计算与整理过程中易产生低级错误,校验成本较高。行业迫切需要通过 AI 技术降低单篇研报的边际成本,以维持利税规模和商业可行性。

1.2 行业发展历程

从行业实践看,AI写研报的发展并非单点技术突破的结果,而是沿着研究流程逐步深入的阶段性演进过程 。

1.第一阶段:研究辅助工具阶段(已基本完成)

在该阶段,AI主要承担文本撰写、内容摘要、资料整理等单点任务。早期的探索以Bloomberg在2023年发布的BloombergGPT为技术标杆,该模型利用 3630亿token的金融数据训练,首次证明了专用模型在金融情感分析与实体识别上显著优于通用模型 ,为后续行业从“通用辅助”转向“垂直深耕”奠定了技术基石。

2第二阶段:人机协同研究闭环阶段(正在发生)

随着金融数据接口与RAG技术的引入,AI开始深入参与数据抓取与逻辑校验,部分垂直化系统已具备“从数据到初稿”的端到端能力。目前国内主流终端已率先实现了这一跨越。以Wind为例,其推出的Alice Writer系统已实现与底层数据库的深度打通,研究员只需输入自然语言指令,系统即可在短时间内调用最新宏观数据与行业新闻,生成包含可溯源图表的完整初稿,有效解决了AI “数据幻觉”的合规痛点 。同花顺iFinD则基于自研的HithinkGPT侧重于非结构化信息的处理,其AI模块能通过音频传译将会议快速转写并提炼为结构化纪要。这些应用标志着AI不再只是写作工具,而是逐步成为研究流程中不可或缺的功能型成员。

3. 第三阶段:研究流程模块化与数字化团队阶段(尚未完全到来)

在该阶段,研究任务将被拆分为若干标准化模块,由多个AI Agent并行协作完成,人类研究员则更多承担研究假设设计、结论判断与风险把控等职责。人类研究员则更多承担研究假设设计、结论判断与风险把控等职责。

第二章商业模式和技术发展

2.1 产业链商业模式

2.1.1 AI 写研报产业链

AI 写研报行业作为新兴的科技驱动型服务行业,处于数字经济产业链的中游环节,上游衔接人工智能技术、数据资源、算力基础设施等支撑产业,下游服务于金融机构、企业研究部门、咨询公司、政府决策机构等各类研报需求主体,产业链传导逻辑呈现 “技术赋能 - 需求牵引” 的双向驱动特征,即上游技术突破支撑行业发展,下游多元化需求反向推动技术迭代与服务升级。

AI写研报产业链

资料来源:资产信息网千际投行wind

上游核心环节

人工智能技术供给:涵盖自然语言处理(NLP)、大语言模型(LLM)、知识图谱、多模态技术等核心技术领域,技术提供商包括大型科技企业(如华为、百度、阿里)、AI 创业公司(如科大讯飞、商汤科技)及科研机构,为 AI 写研报平台提供算法模型、开发工具包等核心支撑。目前金融领域专用 AI 模型已预装 800 + 行业术语与写作模板,可适配银行、证券、保险等垂直领域的微调需求。

数据资源供给:包括宏观经济数据、行业运行数据、企业经营数据、政策法规数据、舆情数据等,数据来源分为公开数据(政府官网、行业协会、上市公司公告)和商业数据(Wind、同花顺、Bloomberg 等专业数据服务商),数据清洗、标注、更新服务商为行业提供高质量数据素材。其中金融类研报核心数据来源中,商业数据服务商占比超 60%,是保证研报专业性的关键支撑。

算力基础设施供给:以云计算服务商(阿里云、腾讯云、AWS)、算力硬件厂商(英伟达、华为昇腾)为主,提供 GPU/CPU 服务器、云计算资源、边缘计算节点等,满足 AI 模型训练、推理及研报生成过程中的高算力需求。单家头部券商 AI 投研系统的年度算力投入可达千万元级别,支撑日均千份级研报的生成与处理。

图生成式AI产业厂商占位

资料来源:艾瑞咨询研究院

2025年中国企业级AI应用产业图谱

资料来源:资产信息网千际投行wind

中游核心环节

AI 写研报平台运营:分为通用型研报生成平台(覆盖多行业、多类型研报)和垂直型研报生成平台(聚焦特定行业如金融、科技、能源或特定研报类型如行业分析、公司调研、政策解读),核心业务包括模型优化、产品开发、数据整合、服务交付等,通过 “技术 + 数据 + 场景” 的融合,实现研报从素材收集、框架搭建、内容生成到格式优化的全流程智能化。头部平台已实现 20 页 Word 分析报告 + 10 页 PPT 的自动生成闭环,覆盖年报、招股书、研究报告等多元场景。

技术服务支撑:包括RAG(检索增强生成)、Graph RAG 技术服务商、多智能体协同系统开发商、合规校验工具提供商等,为平台运营方提供技术升级、功能拓展等专业服务,助力提升研报生成的准确性、深度和合规性。合规校验工具已能覆盖 100 + 监管规则,自动标注风险段落,降低合规审核成本。

AI写研报技术支撑体系

资料来源:资产信息网千际投行wind

AI模型的选择逻辑

资料来源:艾瑞咨询研究院

下游应用环节

金融机构:券商、基金公司、保险公司等,用于行业研究报告、投资分析报告、市场研判报告的快速生成,支撑投研决策、客户服务等业务。中金、中信建投、广发等头部券商已全面应用AI 工具,中金 “中金点睛” 平台全端触达用户近百万,覆盖机构投资者近十万。

企业用户:大型集团企业、中小企业,用于行业竞争分析报告、市场调研报告、战略规划报告的编制,降低内部研究成本,提升决策效率。中小企业应用AI 写研报工具后,研报制作成本可降低 50%-70%。

咨询与科研机构:专业咨询公司、高校科研团队,用于课题研究报告、行业白皮书、数据分析报告的辅助撰写,拓展研究覆盖面,缩短项目周期。AI 工具可将咨询公司的报告制作周期从数天缩短至数小时。

政府与公共部门:政策研究机构、行业监管部门,用于政策效果评估报告、行业发展监测报告的生成,为政策制定、行业监管提供数据支撑。城商行借助AI 系统完成 1104 报表生成,从原 5 人 3 天的手工工作量缩减至 2 小时自动生成 + 合规校验。

2.1.2 商业模式

AI 写研报行业的商业模式以 “技术赋能价值创造” 为核心,围绕研报生成全流程的智能化服务,形成了多元化的盈利模式与运营逻辑,核心在于通过技术创新解决传统研报撰写的数据处理慢、成本高、易出错、覆盖窄等痛点,同时依托人工把控深度洞察与合规校验,实现 “人机协同闭环” 的服务交付。

AI写研报商业模式画布

资料来源:资产信息网千际投行wind

核心盈利模式

订阅服务收入:为企业用户提供按年/按月的会员订阅服务,解锁平台全部功能(如多行业研报生成、高级数据可视化、批量生成、模板定制),并提供定期技术更新与数据升级;年费/月费制,根据用户规模(如单人版、团队版、企业版)分级定价,企业级年费通常在10万-50万元区间;适用场景:中小企业、咨询公司、高校科研团队等高频研报需求用户。

单次生成收费:针对零散研报需求用户,按单篇研报生成次数收费,根据研报类型(如深度报告、简版报告)、字数、行业复杂度分级定价,提供基础格式优化与内容修改服务;按篇计费,单篇价格500-5000 元不等,支持单次购买或套餐购买(如10篇/50篇套餐);适用场景:个人研究者、小型企业、临时研报需求用户。

定制化服务收入:为大型金融机构、集团企业提供定制化解决方案,包括专属模型训练(结合企业内部数据)、特定场景研报模板开发、API 接口对接(嵌入企业内部系统)、专属客服与技术支持等;项目制收费+年度服务费,定制化项目费用通常在100万-500万元,年度服务费为项目费的10%-20%;适用场景:券商研究所、大型基金公司、跨国企业集团等高端用户。

技术授权收入:将核心技术(如多智能体协同系统、RAG+Graph RAG 模块、合规校验工具)授权给第三方企业(如传统研报平台、企业内部研究系统开发商)使用,允许其在自有产品中集成 AI 研报生成功能;一次性授权费+按年版权费,一次性授权费50万-200万元,年度版权费为授权费的5%-15%;适用场景:传统数据服务商、企业 SaaS 系统提供商、垂直行业平台。

增值服务收入:在基础研报生成服务之外,提供数据深度挖掘、研报可视化优化、人工专家审核润色、行业专家解读配套等增值服务,提升研报的专业度与落地性;单独计费或打包在高端订阅/定制服务中,人工专家审核润色按千字 1000-3000元收费;适用场景:对研报质量要求高、需深度洞察支撑的金融机构、大型企业。

AI写研报行业商业模式核心逻辑流程图

资料来源:资产信息网千际投行wind

运营核心逻辑

数据整合与治理:通过对接上游多源数据资源,建立结构化数据仓库与非结构化数据处理体系,结合RAG+Graph RAG 技术,实现研报素材的快速检索、精准匹配与智能整合,确保生成内容的准确性与时效性,解决传统研报数据收集分散、整合低效的问题。传统人工数据搬运错误率达 5%-10%,AI 系统可将这一比例降至 1% 以下。

模型优化与场景适配:基于通用大语言模型,结合特定行业、特定研报类型的场景数据进行微调,开发多智能体协同系统(如数据检索智能体、框架搭建智能体、内容生成智能体、合规校验智能体),实现研报生成全流程的分工协作与高效衔接,提升研报的针对性与专业性。在投研中级应用阶段,AI 有效性约为 60%,可大幅减轻人工负担。

人机协同闭环管理:AI 负责完成研报的基础框架搭建、数据整理、内容初稿生成等重复性、流程性工作,人工专家聚焦深度洞察挖掘(如行业趋势预判、核心逻辑分析)、合规风险校验(如数据来源合规、表述规范、内幕信息规避)、内容润色优化等关键环节,形成 “AI 提效 + 人工增值” 的协同模式。高级应用场景中 AI 有效性约 40%,需依赖人工补充深度思考与因果推理。

合规与可追溯体系建设:嵌入合规校验工具,建立数据来源追溯机制、内容合规审核流程、研报生成日志留存系统,确保研报内容符合行业监管要求。历史变更追溯精度可提升90%,有效降低监管处罚风险。

2.2技术发展

2.2.1 AI发展简史

当前的AI技术发展从AI1.0向着AI4.0的技术发展,其在不断发展的同时,使用AI撰写研报越来越成为可能。下面我就为大家展示一下AI发展历程中,AI对于撰写研报的能力的提升:

AI 1.0(规则驱动时代):行研行业主要依赖基于规则的文本模板和数据抓取工具,自动化程度有限,此时的AI就是一个根据一个规范模板,依葫芦画瓢完成所有信息的抓取工作,但是对于数据层面的工作偏弱,此时的AI技术不能自主生产一篇新的研报,分析师仍承担绝大多数分析和撰写工作。

AIGC时代(2022-2024):以大语言模型为核心的内容生成技术崛起,研报行业迎来自动化1.0革命AI能够完成信息整理、数据摘要、基础章节撰写等任务,效率提升显著,但是其中的信息来源无法保证,生成的数据不能保证完全正确,甚至有一些AI以最终结论生成了杜撰的数据,这也代表了AI技术目前的不稳定性,深度分析和投资观点仍需人工主导。

AGI探索期(2025-2027):技术向通用人工智能迈进,在研报领域表现为多模态理解、复杂推理、跨领域知识融合能力的突破。AI开始具备初步的行业洞察和逻辑推演能力,能够辅助分析师进行更深入的产业链分析和竞争格局研判。

AI 4.0愿景(2028+):以“世界模型”和“具身智能”为代表的下一代AI技术,将使研报生成从“文本创作”跃升为“现实模拟与预测”。AI能够构建动态的产业数字孪生,实时模拟政策变化、技术突破、市场情绪等多重因素对行业的影响,产出具备前瞻性和预测性的深度研究报告。

当前,AI写研报行业正处在AIGC向AGI过渡的关键阶段,技术突破与应用落地相互促进,催生新的产业生态。

2.2.2 大语言模型技术突破

大语言模型是AI写研报的核心技术底座。2024-2025年,LLM技术在参数规模、架构设计和多模态能力方面实现了重大突破,为研报生成提供了更强大的技术支撑。

1)参数规模指数级增长

模型参数量从GPT-31750亿跃升至GPT-41.8万亿,2025年主流模型参数规模普遍达到万亿级别。根据OpenAI技术报告,GPT-4的训练能耗达1.02亿度电,训练成本约1500万美元。与此同时,国产大模型如通义千问、智谱清言等也实现了千亿级参数的突破。参数规模的指数级增长带来了模型能力的质变,在复杂推理、长文本理解等方面表现显著提升。

2MoE架构成为主流

混合专家模型(Mixture of Experts, MoE)架构通过稀疏激活技术,在保持模型容量的同时显著降低计算成本。Meta 20254月发布的Llama 4系列首次采用MoE架构,其中Behemoth版本总参数达2万亿,激活参数2880亿。MoE架构使模型推理成本降低约60%,为AI写研报的商业化落地提供了可行路径。

3)长上下文窗口突破

上下文窗口大小直接决定模型能处理的任务复杂度。2025年,主流模型上下文能力大幅提升:GPT-4.1支持100token(约75万字),Claude 4支持20token输入,Gemini 2.5 Pro更是达到200token处理能力。长上下文能力的突破使AI能够处理完整的财报、招股书等长文档,为研报生成奠定了技术基础。

1:大语言模型参数规模演进(2018-2025

资料来源:OpenAI技术报告、Anthropic技术报告、各厂商公开资料,东吴证券研究所整理

2.2.核心技术栈深度解析

AI写研报的技术实现依赖于多项关键技术的协同配合,形成感知-理解-生成-校验的完整技术闭环。

1RAG(检索增强生成)技术

RAG技术是解决大模型幻觉问题的关键手段。通过结合外部知识库,RAG使模型在生成内容时能够实时检索专业领域的知识和数据,显著提高输出准确性和可靠性。根据蚂蚁集团2024年白皮书数据,引入RAG技术后,大模型在金融研报生成中的准确率从53%提升至85%,接近人工撰写的95%基准线。目前RAG技术已衍生出Graph RAG(知识图谱增强RAG)、A-RAG(智能体RAG)等进阶形式,进一步提升了检索的精准度和生成质量。

2)多智能体协同系统

2025年,多智能体(Multi-Agent)系统成为AI写研报的核心技术架构。通过将研报生成流程分解为数据检索、框架搭建、内容生成、合规校验等多个专业化智能体,实现任务分工与高效协同。MITUCLA联合开发的TradingAgents系统构建了基本面分析师、情绪分析师、技术分析师、交易员、风险管理五个专业化智能体,在历史回测中年化超额收益达7.4%,最大回撤从18%降至11%。摩根大通私人银行的Ask D.A.V.I.D.系统采用Supervisor Agent协调三个功能型Agent,在2024年第四季度压力测试中,组合调整方案比传统人工团队快11倍完成。

3MOAMixture of Agents)混合架构

MOA混合智能体架构是2025年金融行业AI技术的重要突破。该架构整合通用大模型(千亿/万亿参数MoE架构)作为企业智能基座,N个中小尺寸专业模型(百亿参数)用于不同场景Agent,通过模型蒸馏和微调注入专属领域知识,同时构建企业级数据飞轮实现持续进化。根据阿里巴巴《金融行业Agent百景图》报告,场景化专业模型特定任务准确率比通用模型高15%,推理成本仅为1/3。沙利文报告显示,2025MOA架构将成为金融AI系统主流工程形态。

2:中国金融大模型市场规模及预测(2024-2028

资料来源:IDC《中国模型即服务(MaaS)AI大模型解决方案市场追踪,2024H1》、沙利文研究院,东吴证券研究所整理

2.2.3技术准确率与效率提升

AI写研报技术的商业化落地,关键在于准确率提升和效率优化。2024-2025年,随着技术成熟度提升,AI在金融研报生成领域的表现持续改进。

1)技术准确率对比

根据多项行业测试数据,不同AI技术在研报生成中的表现差异显著。基础LLM准确率约53%RAG增强后提升至85%,多智能体协同系统达91%MOA混合架构已接近96%,基本达到人工撰写95%的基准水平。这一进展标志着AI写研报技术已从辅助工具迈向生产力工具阶段。

3AI写研报技术准确率对比

资料来源:蚂蚁集团技术白皮书、各厂商测试数据,东吴证券研究所整理

2)幻觉率控制突破

幻觉Hallucination)是大模型应用的核心挑战,指模型生成与事实不符的内容。根据Vectara 20254月基于HHEM-2.1模型的评估数据,头部商业模型已实现超低幻觉率:谷歌Gemini-2.0-Flash-0010.7%的幻觉率位列榜首,GPT-4o1.5%)、GLM-4-9B1.3%)等9款模型幻觉率均低于1.5%。这标志通过模型架构优化和强化对齐训练,头部厂商已能将幻觉风险控制在金融应用可接受范围内。技术突破主要来自两大创新:谷歌实时连接知识库验证信息真伪,OpenAI开发智能检测系统自动过滤矛盾信息。

4:主流大语言模型幻觉率对比(2024-2025

资料来源:Vectara HHEM-2.1评估报告(20254月),东吴证券研究所整理

3)效率提升数据

AI技术在研报撰写各环节均带来显著效率提升。数据收集与整理环节从8小时缩短至1小时(效率提升87.5%),报告框架搭建从4小时缩短至0.5小时(效率提升87.5%),内容初稿生成从16小时缩短至2小时(效率提升87.5%),数据可视化制作从6小时缩短至1小时(效率提升83.3%),合规校验与审核从4小时缩短至0.5小时(效率提升87.5%)。整体而言,AI辅助可将研报撰写周期从数天缩短至数小时。

5AI辅助研报撰写各环节效率提升对比

资料来源:行业调研数据,东吴证券研究所整理

2.2.5 市场应用现状

2024年,AI大模型在金融领域的应用进入规模化部署期。根据毕马威《2025金融业大模型应用报告》,全球近半数金融机构已启动大模型应用建设,行业正从零星试验阶段迈入规模化部署期。

1)应用场景分布

根据英伟达2024年对近400家金融机构的调研,AI应用场景呈现多元化特征。客户服务场景渗透率最高(71%),报告生成场景渗透率达37%,代码辅助场景渗透率42%,智能办公场景渗透率45%,投研分析场景渗透率32%,风控合规场景渗透率38%IDC数据显示,2024年中国金融行业生成式AI投资规模为36.26亿元,预计到2028年投资规模将达238.04亿元,年复合增长率(CAGR)为60.1%

6AI大模型在金融领域应用场景渗透率(2024

资料来源:英伟达《2024年金融服务业中国AI现状与趋势》、IDC,东吴证券研究所整理

2)头部机构实践

国内金融机构积极拥抱大模型技术。根据2024年财报信息,已有6家上市银行公开发布大模型技术开发与应用信息。工商银行在国内同业率先实现百亿级基础大模型在知识运营助手、金融市场投研助手等多场景应用;平安银行探索自研BankGPT平台,研究大模型在个性化营销内容创作、交互式数据分析等场景的应用落地;中金公司中金点睛平台全端触达用户近百万,覆盖机构投资者近十万。2024Q12025Q2,中国金融市场共计产生191个大模型相关中标项目,其中2024112个,2025年上半年79个,形成银行业主导、证券保险跟进、信托资管探索的梯次发展格局。

2.2.4技术发展趋势展望

展望未来,AI写研报技术将呈现以下发展趋势:

1)多模态融合深化

研报生成将从纯文本扩展至图文、视频、交互式可视化等多模态形式。GPT-4oGemini 2.5等模型已实现原生多模态处理能力,未来AI将能够自动生成包含动态图表、数据可视化、视频解说的多媒体研报。

2)推理能力持续增强

OpenAI-o1DeepSeek-R1等推理模型的出现,标志着LLM在复杂问题解决方面取得突破,赋予AI更接近人类系统2思维的深度推理能力。未来AI将具备更强的因果推理和趋势预判能力,产出更具前瞻性的深度研究报告。

3)成本持续优化

随着模型蒸馏、量化、推理优化等技术成熟,AI写研报的使用成本将持续下降。DeepSeek、通义等优质开源模型推动大模型轻量化,软硬一体机将在私有化部署中打开新一轮增长空间。IDC预测,到2028年中国MaaS市场规模将达38亿元,AI大模型解决方案市场规模将达211亿元,技术进步与成本下降的良性循环将加速AI写研报的普及应用。

小结

综上所述,AI写研报行业的技术发展正处于快速迭代期。大语言模型参数规模从千亿级迈向万亿级,MoE架构和超长上下文窗口成为技术标配;RAG、多智能体协同、MOA混合架构等核心技术持续成熟,技术准确率从53%提升至96%,接近人工水平;头部模型幻觉率已控制在1.5%以内,满足金融应用标准;AI辅助可将研报撰写效率提升80%以上。2024年中国金融大模型市场规模达28.66亿元,预计2025-2028年将保持50%以上的年复合增长率。技术突破与应用落地相互促进,AI写研报行业正从技术验证迈向价值创造的新阶段。

第三章行业发展和驱动机制及风险管理

3.1行业发展

AI撰写研报行业作为AI+金融领域的核心细分赛道,依托人工智能技术的迭代升级与金融机构投研效率提升需求的双重驱动,近年来实现高速发展,已从初期的工具辅助阶段逐步迈向全流程智能化渗透阶段,成为重塑金融投研生态的关键力量。当前行业整体呈现“技术迭代加速、场景深度延伸、市场格局分化”的核心特征,在政策支持、资本加码与需求释放的多重利好下,正进入规模化落地与高质量发展并存的新阶段。

3.1.1 整体市场规模与增长态势

受益于金融科技行业的持续扩容及AI技术在投研场景的规模化应用,AI撰写研报行业市场规模保持高速增长。从底层支撑来看,2023年中国金融机构科技投入总规模达3598亿元,同比增长9.8%,较2020年增长超62%(数据来源:中国信通院,2024),其中AI领域是核心增长极,而研报智能化撰写作为证券业AI应用的重要场景,增速显著高于行业平均水平。从细分投入看,2024年中国金融行业生成式AI投资规模已达36.26亿元,预计到2028年将飙升至238.04亿元,年复合增长率高达60.1%(数据来源:中国信通院《金融生成式AI发展白皮书》,2025),AI研报工具作为核心落地场景,贡献了主要增长增量。截至2025年上半年,国内证券类APP中高达82.6%已嵌入AI技术,覆盖40余个全球市场(数据来源:易观分析,2025H1),为AI研报的规模化应用奠定了广泛载体基础。

从细分领域表现看,证券业是AI撰写研报技术应用最集中、增速最快的领域,年增长率达41%(数据来源:头豹研究院,2025),其中量化交易与智能投研构成核心驱动力。2024年国内量化基金规模突破2.5万亿元,同比增长38%,其中AI驱动的量化策略占比超60%(数据来源:中国证券投资基金业协会,2025),带动AI研报在数据整合、策略分析、结论生成等环节的需求爆发。国信证券实测数据显示,AI优化后的ETF组合模型年化收益率可从6.75%提升至7.18%(数据来源:国信证券投研部,2024),印证了AI在投研决策中的实战价值。预计2025-2030年,伴随AI大模型的行业化落地与投研场景的持续渗透,AI撰写研报行业市场规模复合增长率将维持在40%-50%区间(数据来源:头豹研究院,2025),其中新三板、科创板及跨境市场的研报智能化需求增速将领先整体行业,成为新的增长引擎。

3.1.2 行业发展阶段与核心特征

当前AI撰写研报行业已跨越工具探索期,进入技术深化与场景拓展并行的成长期,核心发展特征体现在三个维度:

第一,技术应用从“单点辅助”向“全流程渗透”升级。初期AI撰写研报工具主要聚焦于数据抓取、格式排版等基础环节,仅作为分析师的效率辅助工具;当前已实现对研报撰写全流程的覆盖,包括行业数据挖掘、财报深度分析、政策影响解读、投资逻辑生成、风险提示梳理等核心环节。头部机构已实现技术突破,如基于腾讯元器平台搭建的AI虚拟分析师,通过复刻资深分析师思维的单工作流模式,融合PEST/SWOT双重分析框架与金字塔原理,可将数小时的桌面研究压缩至3分钟,生成结构化万字研报,且能保留信源URL实现溯源核验(数据来源:腾讯云金融科技白皮书,2025)。头部券商研发的金融投研小模型,参数规模覆盖7B至104B多版本,每月新增数千亿tokens优质金融语料,在财报分析、投资建议生成等任务上准确率达94%,较通用大模型提升8个百分点(数据来源:券商中国,2025),且可部署在私有云满足数据安全要求,大幅提升研报撰写效率与专业性。

第二,需求结构呈现“B端主导、分层渗透、C端延伸”特征。B端机构(券商、基金、投行等)是行业核心需求方,而券商的盈利压力成为需求爆发的核心推手——2024年有41.67%券商出现亏损,2025年中期仍有10家处于亏损状态,头部券商利润率下滑至20%左右(数据来源:中国证券业协会,2025H1),倒逼机构通过AI降本增效。其中头部券商与中小机构需求分化明显:头部券商年均投入超5亿元用于AI投研系统研发,倾向于自研定制化平台,如东方财富证券“妙想AI”推出“AI研究员”模块,可实现逻辑链路可视化与报告智能生成,助力机构投研效率提升超40%(数据来源:东方财富证券公告,2025);华泰证券“涨乐财富通”AI投研模块2024年月活用户达1200万(数据来源:易观分析,2025),实现投研成果向C端转化。中小券商及投行则更倾向于采购标准化AI研报工具,降低自研成本。此外,C端用户需求快速崛起,63.8%的C端投资者接受AI投研服务,对智能荐股、资讯解读的需求占比分别达44%、36%(数据来源:同花顺用户调研,2025),推动AI研报从机构内部工具向大众财富管理场景延伸。

第三,市场格局呈现“梯队分化、生态协同”态势。行业已形成清晰的竞争梯队:第一梯队为互联网巨头与头部券商联合布局,阿里云“通义点金”大模型已与中金、易方达等180余家金融机构合作,30余家实现生产上线(数据来源:阿里云金融科技发布会,2025);百度“智金”金融智能体深度融合研报撰写、资产评估场景,构建全链条生态。第二梯队为垂直领域龙头企业,如同花顺依托C端用户数据优化研报生成模型,东方财富证券“妙想AI”凭借1.2万亿级金融语料库,构建覆盖B/C两端的财富管理生态,2025年上半年用户规模翻倍增长(数据来源:东方财富证券2025年中报)。第三梯队为初创企业,多聚焦跨境研报翻译、细分行业模板生成等 niche 场景,依赖单点技术创新突围,但受限于资金、数据积累不足等问题,存活率较低,市场份额占比不足18%(数据来源:头豹研究院,2025)。同时,头部券商间呈现差异化竞争,招商证券聚焦AI在衍生品做市中的应用,广发证券将AI融入两融管理与人才培养,进一步丰富生态布局。

3.1.3 区域与场景拓展趋势

从区域布局看,AI撰写研报行业资源高度集中于金融中心城市,北京、上海、深圳凭借丰富的金融机构资源、技术研发实力与监管支持,成为行业发展核心聚集区。这些地区推出的AI金融监管沙盒,为AI研报工具的创新测试提供了容错空间,如某券商在上海监管沙盒中测试“AI自动生成投研报告”业务,监管部门明确合规责任边界,为行业规模化推广奠定基础,预计2026年全国将建成10个以上AI金融监管沙盒,进一步推动AI研报技术的商业化落地。

从场景拓展看,AI撰写研报正从传统A股主板标的向新三板、科创板、跨境市场延伸,从标准化行业研报向定制化个股研报、深度策略研报拓展。在新三板领域,由于标的数量多、信息披露相对分散、分析师覆盖不足,AI工具可通过批量处理非标准化数据、快速生成基础研报,有效填补市场空白,成为投行服务中小企业客户的重要工具,某头部投行实测显示,AI处理新三板标的研报效率较人工提升3倍以上(数据来源:证券时报,2025)。同时,AI研报技术正与财富管理、合规风控、投教服务深度融合,东方证券通过AI消歧功能升级舆情监测系统,提升风险管控精度;申万宏源将AI与投教结合,推出智能投研培训产品获得客户认可(数据来源:申万宏源投教白皮书,2025)。生成的研报不仅用于内部投研决策,还可通过AI投顾模块向C端用户输出个性化建议,实现“研报生产-价值传递”闭环,而证券类APP月活用户突破1.66亿(数据来源:易观分析,2025H1),为这一闭环提供了广阔流量支撑。

3.1.4 行业发展面临的阶段性瓶颈

尽管行业发展势头迅猛,但仍面临多重阶段性瓶颈:一是技术层面,通用大模型向行业化适配的深度不足,复杂场景(跨行业并购研报、宏观政策深度解读)的逻辑推理能力不及资深分析师,且社交平台出现“AI炒股玄学”乱象,部分用户将AI荐股神化,反映出技术应用中的认知偏差与边界模糊问题(数据来源:证监会市场风险监测报告,2025H1)。二是数据层面,金融数据的私密性、碎片化导致模型训练数据质量参差不齐,跨机构数据共享机制不健全,且优质金融语料库建设集中于头部机构,中小厂商面临数据壁垒(数据来源:中国信通院,2025)。三是合规层面,AI生成研报的责任界定、内容真实性核查仍缺乏统一标准,叠加部分机构利用AI非法荐股引流,监管合规压力持续升级(数据来源:证监会监管动态,2025),影响技术落地进度。这些瓶颈将伴随技术迭代与行业治理完善逐步缓解,成为行业下一阶段高质量发展的核心突破方向。

3.2驱动因素

(一)技术进步

随着互联网技术的发展,以GTP-4、通义千问等为代表的大语言模型技术突破,实现了研报生成质量的质变,推动研报生产模式从“人工主导”向“AI赋能+人工深化”转型。

通过深度学习和海量的语料训练,显著提升了研报生成的逻辑性、数据精确性和行业适配性。模型的不断迭代,使得AI能自动解析财报、行业数据库中的结构化数据,从而生成符合金融行业规范的文本,大幅降低人工校准成本。

(二)市场需求

当前,金融行业的数字化转型加速推进,金融机构面临信息爆炸的压力,亟须高效、低成本的研报生成工具以支持高频决策。并且,普惠金融的普及,推动着个人投资者对专业投研服务的需求增加,刺激着AI写研报工具的诞生与革新。

传统行研模式面临“人工分析深度不足”与“响应滞后”的双重挑战,而AI写研报可以缩短研报生成周期,同时深度挖掘市场信息,充分适应了市场需求。

(三)成本效益

传统研报依赖人工撰写,平均人力成本较高。而AI方案可以实现规模化、标准化输出,通过自动化数据抓取、逻辑推理和格式生成,使企业降低人力依赖。尤其是在量化分析等场景中替代人类重复劳动,同时减少错误率,提升决策的可靠性。

(四)政策支持

国家层面及监管机构的政策导向为AI在行研领域的发展提供了明确的发展方向和资源保障。

《银行业保险业数字金融高质量发展实施方案》明确提出“人工智能+金融”战略,将AI技术在投研等核心业务中的应用作为重点推进方向。中国证监会《金融科技发展规划(2022-2025)》明确提出“推动人工智能技术在投研领域的创新应用”,从监管层面为AI写研报的规范化发展扫清了障碍。

在政策驱动下,金融行业科技投入持续加码,地方层面推出财政补贴、场景开放等配套政策,整体上形成上下联动的政策支持体系,为AI行研发展奠定坚实基础。

(五)行业生态

金融机构与科技金融的跨界协同深化,以及私域数字资产的价值凸显,推动AI写研报的行业生态不断完善,形成差异化竞争格局。

私域数字资产成为行业差异化竞争的核心基石,各家研究机构通过AI手段沉淀核心数据、分析框架、估值模型等专属资产,形成独特的研报生成能力。

3.3风险管理

1、技术层面风险

未经优化的大模型生成研报关键数据引用错误率达22.7%,逻辑链条断裂现象占比35.1%,易出现混淆相似代码上市公司、引用非权威数据源等问题,直接导致估值模型失效或投资决策偏差。通用大模型在金融专业逻辑、行业周期判断等方面表现薄弱,清华大学测试显示主流大模型金融专业问答事实性错误率高达41.2%,因果推断偏差可能使量化策略年化收益下降4.2个百分点。私有化部署面临算力瓶颈,高频场景下API调用响应延迟;多模型协同处理时易出现数据同步滞后,影响研报产出时效性。

2、合规层面风险

违反《证券分析师执业行为准则》《私募资产管理业务管理办法》等要求,存在重大风险提示遗漏、强制披露要素缺失等问题,面临监管处罚。金融数据采集、存储、使用过程中,易触及《数据安全法》红线,存在敏感信息泄露、未授权数据复用等隐患。AI生成内容的著作权归属不明确,数据溯源机制不完善,若出现误导性信息,责任划分缺乏明确法律依据。

3、运营层面风险

投研人员过度依赖AI工具,导致专业判断能力退化;人工复核流程流于形式,未能识别模型生成的隐蔽错误。模型受训练数据更新不及时、市场环境突变等影响,输出质量稳定性不足,某券商反馈行业基准质量波动幅度曾达±15%。对底层大模型、算力供应商的依赖度高,若服务商技术迭代中断或服务终止,将直接影响业务连续性。

4、市场层面风险

投资者对AI生成研报的可信度存疑,一旦出现重大错误事件,可能引发行业信任崩塌,导致客户流失。部分企业为抢占市场份额,降低质量管控标准,以 “快速产出” 替代 “精准可靠”,引发行业恶性竞争。

3.4中国企业主要参与者

1. 阿里巴巴集团[BABA](通义千问)

依托通义千问大模型与阿里云基础设施,构建技术 + 算力 + 数据三位一体能力;通义企业知识探针可跨系统整合文档、报表等资源,支持研报数据检索与摘要生成,日均服务百万企业用户。通过阿里云向券商、基金提供定制化解决方案,联合语势科技打造主题投资引擎,实现主题设定-跟踪-分析-发布全流程自动化;其CodeQwen大模型为金融机构提供代码生成、数据分析支持,提升研报量化分析效率。

2. 华为技术有限公司[未上市](盘古大模型 / 仓颉大模型)

以昇腾芯片算力为支撑,盘古大模型在行业适配性上表现突出,尤其擅长多模态数据处理与复杂逻辑推理;通过混合云部署模式,平衡数据安全与处理效率。聚焦金融、工业等专业领域,为研报生成提供多源数据整合、可视化图表制作等能力,其因果链分析技术可提升研报逻辑严谨性,已在部分券商投研平台落地。

3. 腾讯控股[HK0700](混元大模型)

混元大模型在自然语言处理、知识图谱构建上具备优势,结合腾讯云的安全防护能力,适配金融行业数据敏感需求;可联动微信生态实现研报多渠道分发。为机构提供研报智能写作、热点追踪等工具,支持日报、周报等高频报告自动化生成,其多轮对话能力可辅助研究员拆解复杂研究课题。

4. 深度求索[未上市](DeepSeek)

首创“LLM as OS” 架构,DeepSeek-R 系列模型在金融量化分析领域达到国际顶尖水平,数学推理、代码生成能力突出;开源模型 DeepSeek-Coder 全球下载量超千万,降低行业应用门槛。为招商证券等机构提供投研辅助解决方案,替代部分专家人力工作,提升决策效率;DeepSeek-R1 可实现金融专业领域复杂问题结构化解析与溯源推理,有效降低 AI 幻觉风险。

3.5国际主要参与者

1. OpenAI(美国)

提供最先进的文本生成、分析、总结和代码能力。众多金融科技公司和研究机构利用其API,将自然语言理解能力集成到自己的数据分析和报告生成工作流中。GPT-4/GPT-4 Turbo通过插件与API对接金融数据(如Yahoo Finance、Alpha Vantage),支持研报框架生成、数据解读、摘要撰写,生态工具丰富(如ChatPDF)。

2. AlphaSense(美国)

金融投研AI头部,收购Sentieo与Stream,集成生成式搜索/Deep Research/Generative Grid,覆盖1000+卖方机构与监管信息,支持研报生成、财报分析、竞品对标,客户含对冲基金、投行、资管。

3. Google DeepMind(英国/美国)

提供从模型到云平台的全套AI解决方案。其强大的信息检索和整合能力,对需要大量查阅公开信息的研究尤为有用。Gemini Pro/Ultra提供金融定制API,擅长多模态分析(财报+图表+新闻),助力研报可视化与趋势预测。

4. Anthropic(美国)

Claude系列模型推出金融专属服务,服务VISA、桥水、挪威主权基金,支持研报生成、多源信息交叉验证与合规溯源,聚焦长文本分析与复杂推理。

第四章AI写新三板个股报告的具体方法论

4.1 研究目标定义与系统化工作流建模

核心任务:为本次研究建立明确的执行蓝图,将抽象的研究目标转化为可配置、可执行、可监控的自动化流程。

具体操作详解:

1. 研究标的的标准化注册与验证

操作:输入目标公司的股票代码。

系统自动化执行:

基础信息拉取:自动连接全国股转系统(NEEQ)的公开API,验证代码有效性,并获取公司的法定全称、所属层级(创新层/基础层)、主办券商、所属行业(证监会一级及二级分类)。

特殊状态标记:自动扫描公司近期公告,识别并标记特殊状态,如:是否被实施风险警示(ST)、近期是否收到全国股转公司的问询函、是否存在未决的重大诉讼。

历史研究检索:在内部知识库中查询,确认是否为首次覆盖。若是跟踪研究,则自动关联上一期报告的版本与核心结论。

人工介入点与决策:

标的确认:研究员需确认系统获取的信息无误,特别是公司主营业务描述是否准确。

研究性质判断:根据公司状态(如ST标记),决定本次研究的侧重点是“风险排查”还是“价值发现”。

2. 研究模板与深度参数化配置

操作:从预设模板库中选择一个模板,并进行参数微调。

模板库详解:

深度价值报告模板:适用于首次覆盖或年度全面审视。调用全部AI模型,报告结构完整,要求8-15页。

章节权重预设:行业分析(25%)、业务与技术(25%)、财务分析(30%)、风险分析(10%)、估值与结论(10%)。

数据要求:必须包含至少3年的完整财务数据、10家以上可比公司数据。

季度/半年度跟踪报告模板:适用于定期业绩点评。主要调用业绩预测模型,报告结构精简,要求3-5页。

聚焦章节:业绩快评、经营动态更新、财务预测修正、估值调整。

数据要求:重点关注本期关键财务指标、管理层讨论要点、与上一期预测的偏差。

风险专项排查报告模板:适用于风险监控或负面事件分析。核心调用财务预警模型,并强化治理数据分析。

聚焦章节:风险全景扫描、财务健康度诊断、合规性评估、压力测试。

数据要求:深度挖掘诉讼、质押、监管记录等负面信息。

3. 构建详细的工作流蓝图(DAG)与质量控制节点

操作:系统根据所选模板,自动生成一个带有明确质量控制节点(Checkpoints)的工作流图。

流程阶段分解:

阶段A:数据准备 (Data Ingestion & Preparation)

输入:股票代码、研究模板参数。

AI任务:并行执行官方文档抓取、市场数据采购、另类数据爬取。

输出:原始数据包(Raw Data Package)。

质量控制点CP1 (数据完整性检查):系统自动计算关键数据字段的缺失率。若核心财务数据缺失率15%,或近两年年报缺失,则流程暂停,通知研究员进行人工干预。

阶段B:数据处理与特征工程 (Feature Engineering)

输入:原始数据包。

AI任务:执行数据清洗、对齐、标准化,并构建数百个分析特征(财务比率、增长指标、治理评分等)。

输出:结构化特征矩阵。

质量控制点CP2 (数据异常告警):系统检测特征值中的极端异常(如毛利率突变超过50个百分点),生成告警提示,需研究员确认是否为数据错误或真实经营突变。

阶段C:核心AI模型运算 (Model Execution)

输入:结构化特征矩阵。

AI任务:并行或按序运行财务预警、业绩预测、估值三大模型。

输出:模型结果集(风险评分、预测报表、估值区间)。

质量控制点CP3 (模型结果合理性校验):系统将模型结果与行业基准、历史趋势进行比对。例如,若预测的营收增长率是行业平均的5倍以上,则需研究员复核模型假设。

阶段D:报告生成与整合 (Report Generation)

输入:模型结果集、前期提取的文本摘要。

AI任务:根据模板,将数据、图表和文字分析填入各章节,生成初稿。

输出:研究报告初稿(Draft)。

阶段E:人机协同修订 (Human-in-the-loop Review)

输入:研究报告初稿。

核心人工任务:逻辑贯通、观点注入、估值判断。

输出:修订后终稿。

阶段F:合规发布 (Compliance & Release)

输入:修订后终稿。

系统任务:自动添加免责声明、格式最终检查、版本编号、归档。

输出:正式研究报告。

4.2多源信息采集与预处理工程

核心任务:构建一个全面、准确、时效性强的“信息立方体”,为后续所有分析提供高质量的数据原料。

具体操作详解:

1. 建立自动化、可审计的数据采集管道

操作:系统根据标的和模板,自动触发多条并行的数据采集线程。

官方文档采集管道:

目标:获取《公开转让说明书》、近三年(或更久)年度报告、审计报告、半年度报告、临时公告(如定向发行、对外投资、关联交易、风险提示)。

方法:

(1)API优先:通过官方披露渠道的API(如有)进行结构化抓取,获取文档链接和元数据(披露日期、文件大小、类型)。

(2)RPA补全:对于无API的页面,使用机器人流程自动化(RPA)模拟人工点击、下载。

(3)完整性验证:下载后,系统验证文件完整性(是否可正常打开、页码是否连续)。

命名与存储:文件自动按规则命名并存储,如:`830999_XX科技_2023年年度报告.pdf`, `830999_公告_20240430_关于签订重大合同的公告.docx`。

结构化市场数据采集管道:

目标:获取行业数据、可比公司数据、宏观经济与市场情绪指标。

来源与方法:

行业数据:从付费金融终端(Wind/Choice)API调取行业市场规模、增速、集中度(CR5)数据;从行业协会官网爬取白皮书摘要。

可比公司数据:根据行业分类,自动筛选新三板及A股同行业公司,抓取其关键财务数据、交易数据。

宏观与舆情:接入宏观经济数据库(如统计局API);利用新闻聚合API抓取与公司相关的正/负面新闻,并进行简单情感分析。

另类数据采集管道:

目标:补充低频财报之外的高频经营信号。

来源与方法:

创新能力:定时查询国家知识产权局数据库,抓取公司及核心技术人员的新增专利、软件著作权信息。

经营活跃度:爬取政府采购网、主要招投标平台,监控公司中标情况;监测主流招聘网站,分析公司招聘岗位的数量和技术要求变化。

监管与合规:从监管部门网站、企查查/天眼查等商业信息平台,抓取行政处罚、司法诉讼、股权质押变动等信息。

2. 实施严格的数据预处理与质量控制系统

操作:对采集到的原始数据进行清洗、对齐、转换,形成可直接用于分析的结构化数据集。

数据清洗规则表:

数据问题

清洗规则

新三板特例处理

缺失值

财务数据:采用“行业同期均值插补法”。<br- 非财务数据:分类变量用众数填充,连续变量用中位数填充。

对于基础层企业,若连续两年数据缺失,则标记为“数据不连续”,并在报告中提示,而非简单插补。

异常值

采用“行业分位数去极值法”:对于每个财务指标,将小于行业1%分位数和大于行业99%分位数的值,替换为对应的临界值。

对于研发费用占营收比、销售费用率等关键成长/营销指标,保留极端高值,作为企业特性的分析点。

单位与格式

统一货币单位为“万元人民币”,统一百分比格式,统一日期格式为“YYYY-MM-DD”。

特别处理新三板公告中可能出现的“元”与“万元”混用问题,建立单位识别规则。 

文本编码

将所有文本数据统一转换为UTF-8编码,清除乱码和不可见字符。

针对PDF转换文本时常见的换行符错误,采用基于段落语义的断句修正算法。

数据对齐与频率处理:

核心挑战:公司财报是季度/半年频率,而行业数据是月度频率,新闻是日度频率。

处理方法:

(1)向上聚合:将日度新闻情感指数、月度行业数据,通过求平均值或取期末值的方式,聚合到与公司财报相同的季度/半年度频率上。

(2)时间戳对齐:确保所有数据在时间轴上对齐,例如,将2023年上半年的行业数据与公司2023年半年报数据配对。

3. 构建特征工程工厂

操作:从清洗后的基础数据中,衍生出能更好反映企业本质的“分析特征”。

衍生特征类别举例:

成长性特征:过去三年营收复合增长率(CAGR)、最近四个季度营收的环比增速。

盈利能力特征:毛利率、净利率、净资产收益率(ROE)的行业分位数排名(例如:公司毛利率为40%,行业中位数为30%,则其分位数为75%)。

效率与风险特征:应收账款周转天数、存货周转天数的年度变化趋势;经营性现金流净额与净利润的比率(判断利润质量)。

治理与股东特征:实际控制人持股比例、前十大股东质押股份占总股本比例、近三年高管离职人次。

输出物:一个包含数百个特征的结构化数据表格(CSV或数据库表),每一行代表一个报告期(如2023Q4),每一列代表一个特征。这就是后续所有AI模型的直接输入。

4.3 AI模型构建与预测

基本面分析

核心任务范畴

构建企业长期价值评估体系,聚焦于对企业未来3 - 5年盈利能力的精准评估;全面识别企业潜在风险,涵盖财务造假、行业衰退等关键风险领域;基于评估与识别结果,生成具有明确指向性的量化评级,如“买入/持有/卖出”的投资评级或“高/中/低风险”的风险评级。

新三板特殊性适配策略

针对数据稀疏性问题,鉴于部分处于基础层的企业财报披露频率较低,需采用行业均值填充等合理方法进行数据补充与完善或选取数据较完整的AH股;对于流动性风险,将做市商数量、股东户数等关键流动性指标纳入评估体系;就合规风险而言,着重分析监管问询函、行政处罚记录等重要信息,以全面评估企业合规状况。

4.3.1 数据预处理层

非财务数据(包含半结构化与非结构化数据类型):

在行业数据维度上,输入要素全面覆盖行业市场规模、以CR5指标具体衡量的竞争格局,以及诸如专精特新补贴政策等政策导向信息。数据主要依托国家统计局发布的权威统计数据以及行业协会精心出具的深度研究报告。数据处理过程中,运用自然语言处理(NLP)技术精准提取关键政策条款,并针对政策影响开展量化分析。

公司治理维度方面,输入要素包含重点考量实际控制人持股比例的股权结构、高管变动频率以及诉讼记录等关键信息。数据获取借助企查查平台获取企业基础信息,同时参考公司官方公告以确保数据的准确性与可靠性。在数据处理上,采用逻辑回归模型对公司治理风险进行科学、系统的评估。

研发能力维度里,输入要素涉及专利数量、研发投入占比以及核心技术人员背景等核心指标。数据主要来源于国家知识产权局的官方权威数据以及公司招股说明书中的详细披露内容。数据处理时,运用TF-IDF算法对专利技术含量进行客观、精准的计算。

4.3.2 模型算法层

1.财务预警模型构建(基于XGBoost算法与SHAP解释框架)

核心目标

本模型聚焦于精准预测企业在未来12个月内发生财务困境(包含债务违约、被实施特别处理(ST)等多种情形)的概率,并基于预测结果精准识别出具有高财务风险的潜在问题企业,进而为投资决策的制定以及风险管理的实施提供坚实、科学的依据。

XGBoost算法

该算法优势显著,具备卓越的非线性关系处理能力,可自动实现特征间的交互作用,从而有效捕捉数据中潜藏的复杂模式。同时,通过引入正则化参数lambda和alpha,能够显著增强模型的抗过拟合性能,有力确保预测结果的稳定性与可靠性。鉴于新三板企业财务数据质量参差不齐,数据噪声大且分布不均衡,对算法的鲁棒性提出了极高要求,而XGBoost算法凭借其强大的数据处理能力与出色的泛化性能,成为处理新三板企业财务数据的不二之选。

SHAP值解释框架

SHAP值解释框架致力于解决模型的黑箱问题,它通过量化每个特征对模型预测结果的边际贡献度,将原本复杂的模型决策过程清晰透明化。例如,能够明确指出“应收账款周转天数每增加10天,企业发生财务困境的风险概率将相应提升0.05”,为模型结果提供了直观且可解释的依据。

3.关键特征工程

特征类型

具体特征

处理方式

基础财务指标

资产负债率、流动比率、现金流量比率

行业分位数标准化(如(值-行业均值)/行业标准差)

动态变化特征

营收增速环比、毛利率同比变化

滑动窗口统计(过去4个季度均值)

行业适配特征

行业负债率中位数、行业现金流波动率

按证监会行业分类计算

治理风险特征

实控人质押比例、高管变动频率

二值化(如“质押比例50%”→1,否则→0)

4. 模型训练与验证

数据划分策略:

采用时间序列交叉验证方法,按照年度时间顺序划分训练集与测试集。例如,选取2018 - 2020年的数据作为训练集,2021年的数据作为测试集。该方法可充分考虑数据的时间依赖性,确保模型在不同时间段上的预测性能具有一致性。

评估指标体系:

AUC(Area Under the Curve)作为模型整体性能的主要评估指标,目标值为大于0.85,以衡量模型在不同阈值下对正负样本的区分能力。同时,重点关注召回率(高风险样本识别率),确保模型能够有效识别出具有高财务风险的企业,降低漏检风险。

2.业绩预测模型(Prophet + LSTM混合模型)

核心目标

本模型旨在精准预测企业未来四个季度的营业收入与净利润情况,尤其着重解决新三板企业财报披露频率较低这一关键问题。由于新三板企业财报披露间隔较长,传统预测方法难以有效捕捉其间企业业绩的动态变化,而本模型通过综合运用先进算法,能够为市场参与者提供更具时效性和准确性的业绩预测参考。

Prophet(Facebook时间序列模型):

优势:该模型具备强大的自动处理能力,能够精准识别并处理节假日效应以及趋势突变等复杂情况,尤其适用于低频数据的预测分析,例如半年报数据。在面对新三板企业财报数据频率较低的特点时,Prophet模型可以凭借其独特的算法设计,有效提取数据中的潜在趋势和季节性特征。

输入:选取历史营业收入(以季度为单位)作为基础数据,同时引入行业景气度指数作为外部变量。行业景气度指数能够反映整个行业的宏观运行态势,将其纳入模型有助于更全面地考虑企业所处行业环境对业绩的影响。

LSTM神经网络:

优势:LSTM神经网络具有独特的记忆单元结构,能够有效捕捉数据中的长期依赖关系。例如,企业前期的研发投入可能在三年后才会对营业收入产生显著影响,LSTM神经网络能够深入挖掘这种跨期的因果关系,从而更准确地预测企业未来的业绩表现。

输入:采用高频替代数据,包括月度专利申请量和采购合同金额等。这些高频数据能够更及时地反映企业的创新活动和业务拓展情况,为模型提供更丰富的信息,有助于提高预测的准确性。

混合策略:

采用加权融合的方式将Prophet模型和LSTM神经网络的预测结果进行整合。具体权重分配为:Prophet预测值权重设定为0.6,主要侧重于捕捉数据的趋势项;LSTM预测值权重设定为0.4,着重反映数据的波动项。通过这种合理的权重分配,能够充分发挥两种模型的优势,实现更精准的业绩预测。

关键特征工程

数据类型

特征示例

频率

处理方式

财务数据

营业收入、净利润

季度

考虑到财务数据可能存在非线性和异方差性,采用对数变换将其转化为更接近正态分布的数据形式,同时进行差分平稳化处理,以消除数据中的趋势和季节性成分,使其满足模型对数据平稳性的要求。

行业数据

行业营业收入增速、原材料价格指数

月度

由于行业数据与财报披露时间存在一定差异,采用滞后1期的方法将行业数据与财报披露时间进行对齐,确保行业数据能够准确反映企业在财报披露时所面临的行业环境。

替代数据

专利申请量、政府补贴金额

月度

为了减少数据的随机波动性,提高数据的稳定性和代表性,采用滚动3个月求和的方法对替代数据进行处理,从而更准确地反映企业的创新活动和政策支持情况。

文本数据

招股说明书中的“核心技术”关键词频率

年度

运用BERT模型对招股说明书中的文本进行深度分析,提取其中的语义向量。BERT模型作为一种先进的自然语言处理模型,能够准确捕捉文本中的语义信息,将文本数据转化为数值向量,便于模型进行处理和分析。

4. 模型训练与验证

数据增强:针对数据中存在的缺失值问题,采用多重插补(MICE算法)结合行业均值填充的方法进行处理。MICE算法能够充分考虑数据之间的相关性,通过多次迭代生成多个完整的插补数据集,然后结合行业均值进行综合填充,从而有效减少缺失值对模型训练的影响,提高数据的完整性和可靠性。

评估指标:选用平均绝对百分比误差(MAPE)作为主要的评估指标,目标是将MAPE控制在15%以内,以确保模型的预测精度。同时,引入方向准确率指标,即对营业收入增速的正负预测正确率进行评估,以全面考察模型对企业业绩变化趋势的预测能力。

3.估值模型(改进DCF与相对估值的融合模型)

核心目标

本估值模型的核心目标在于精准计算企业的合理估值区间,有效解决新三板企业因流动性欠佳而导致的估值折价难题。新三板市场由于交易活跃度较低、市场深度不足等因素,使得企业在该市场上的估值往往低于其内在价值,通过本模型的综合运用,旨在为新三板企业提供更为科学、合理的估值参考。

算法选择

改进DCF模型

折现率调整:

在折现率的计算中,对β值进行按行业分类的动态计算。不同行业具有不同的风险特征和市场表现,因此β值也会有所差异。例如,信息技术业通常具有较高的成长性和波动性,其β值设定为1.2;而传统制造业相对较为稳定,β值设定为0.8。同时,考虑到新三板企业流动性不足的问题,引入流动性溢价因子λ,其计算公式为λ = 1 - (日均成交额/行业均值)。通过这种方式,能够更准确地反映新三板企业因流动性差异而带来的风险补偿要求。

终值计算:

采用H模型进行终值计算。H模型基于两阶段增长假设,将企业的增长过程划分为两个阶段。在前5年,企业处于高速成长阶段,具有较高的增长率;之后则进入永续低速增长阶段。这种模型能够更好地贴合企业实际的发展轨迹,避免单一增长率假设所带来的偏差,从而更准确地估算企业的终值。

相对估值补充

可比公司筛选:

在筛选可比公司时,设定严格的条件以确保可比性。首先,可比公司必须与目标企业处于同一行业,因为同一行业的企业具有相似的业务模式、市场环境和竞争态势。其次,可比公司应属于新三板创新层,创新层企业在公司治理、信息披露等方面相对更为规范,具有较高的可比性。此外,可比公司在近12个月内必须有交易记录,以保证其估值数据的时效性和有效性。同时,排除ST企业和异常波动股,因为这些企业的经营状况或股价表现存在异常,可能会对估值结果产生干扰。

指标选择:

在相对估值指标的选择上,优先使用EV/EBITDA指标。EV(企业价值)综合考虑了企业的股权价值和债务价值,能够更全面地反映企业的整体价值。EBITDA(息税折旧摊销前利润)则避免了研发费用资本化等因素对利润的干扰,更能真实地反映企业的经营业绩。因此,EV/EBITDA指标在新三板企业的相对估值中具有较高的适用性和准确性。

融合策略

采用贝叶斯平均方法将DCF估值与相对估值进行融合。贝叶斯平均方法能够根据数据质量为DCF估值和相对估值分配不同的权重。例如,在本模型中,考虑到DCF模型基于企业的未来现金流预测,具有较高的理论依据和内部一致性,因此赋予其0.7的权重;而相对估值方法虽然能够反映市场对同类企业的估值水平,但受到可比公司选择和指标选择等因素的影响,具有一定的局限性,因此赋予其0.3的权重。通过这种方式,能够充分发挥两种估值方法的优势,提高估值结果的准确性和可靠性。

关键参数设定

参数

设定方法

新三板适配调整

WACC

采用CAPM模型进行计算,即WACC = 无风险利率 + β×市场风险溢价。无风险利率通常选取国债收益率等较为稳定的指标,市场风险溢价则反映了投资者因承担市场风险而要求的额外回报。

考虑到新三板市场流动性风险较高,投资者要求更高的风险补偿,因此将市场风险溢价上调至8%,以更准确地反映新三板企业的融资成本和投资回报要求。

永续增长率g

以行业长期GDP增速作为参考依据,例如一般情况下设定为3%。行业长期GDP增速反映了行业整体的经济增长趋势,具有一定的稳定性和可预测性。

对于科技型企业,由于其具有较高的创新能力和成长潜力,在行业长期GDP增速的基础上,允许其永续增长率g设定为4%,以体现科技型企业的特殊性和成长性。

相对估值溢价率

通过计算目标企业与同行业创新层企业估值差的中位数来确定。该指标能够反映目标企业在同行业中的相对估值水平。

若企业有北交所转板预期,由于北交所相对于新三板具有更高的市场关注度和流动性,企业的估值水平可能会得到提升。因此,在这种情况下,相对估值溢价率在原有基础上增加10%,以考虑转板预期对企业估值的影响。

4.4分章节AI内容生成与报告合成

核心任务:将冰冷的模型数据转化为符合金融研究规范、逻辑连贯、语言专业的报告叙述。

具体操作详解:

1. 动态提示词工程与上下文构建

操作:系统根据第一步选择的模板,为每个章节调用预设的“提示词模板”,并将前几步的结构化结果作为“事实上下文”注入。

示例:行业分析章节生成流程

步骤1:组装上下文

```json

{

"industry_name": "工业机器人系统集成",

"market_size": {"2021": 800, "2022": 950, "2023": 1100, "unit": "亿元", "cagr": "17.2%"},

"policy_context": ["《“十四五”机器人产业发展规划》", "对购置机器人给予不超过30%的补贴"],

"competition_landscape": {"CR5": "35%", "top_players": ["公司A", "公司B(上市公司)", "本公司"]},

"tech_trend": ["人机协作", "AI视觉引导", "数字化孪生"]

}

```

步骤2:调用提示词模板

角色:你是专注于高端装备制造业的券商高级研究员。

任务:撰写一份关于{industry_name}行业的分析章节。

已知信息(务必准确使用):{以上述JSON格式填入}

要求:

(1) 结构分为:概述、市场空间与增长驱动、竞争格局分析、技术发展趋势、行业壁垒。

(2)所有数据引用需标明数值和来源上下文。

(3)在竞争格局部分,需客观分析本公司所处的市场地位。

(4)语言风格:严谨、客观、逻辑清晰,避免夸张表述。

步骤3:生成与格式化 AI生成约800字的行业章节文本,系统自动将其置入报告模板的对应位置。

2. 图表自动化生成与插入

操作:系统调用Python的Matplotlib或Plotly库,根据模型输出数据,动态生成标准化的图表。

标准图表集:

财务分析部分:营收与净利润增长趋势双轴图(含预测部分)、毛利率与净利率变化趋势图、三大费用率结构堆叠图。

行业分析部分:行业市场规模及增速柱状图、竞争格局份额饼图或瀑布图。

估值部分:估值区间与当前股价对比图、DCF模型敏感性分析热力图。

格式规范:所有图表遵循统一的视觉规范(字体、配色、图例位置),并自动生成编号和标题(如“图3-1 公司营收与净利润预测”),在文中正确引用。

3. 全文逻辑连贯性检查与润色

操作:在所有章节草稿生成后,系统执行一次全局优化。

逻辑检查:提示AI通读全文,检查是否存在前后矛盾(如前文说行业增速放缓,后文预测公司增速大幅超越行业却无合理解释)。

语言润色:统一专业术语(如统一使用“营收”而非“销售收入”),优化句式使其更符合研报风格,检查并修正语法错误。

核心摘要生成:基于全文,自动生成一份300字左右的“投资要点”摘要,置于报告首页,概括核心观点、财务预测、估值与风险。

本步骤输出:一份内容完整、格式规范、图文并茂的研究报告初稿(.docx格式),但所有核心判断仍源于AI模型,缺乏人类分析师的“灵魂”与最终裁决。

4.5人机协同深度研判与关键决策

核心任务:研究员接管流程,将AI生成的“信息素材”和“量化观点”转化为具有深刻洞察和明确立场的“投资研究报告”。

具体操作详解:

1. 逻辑校验与故事线重塑

操作:研究员深度审阅报告初稿。

核对“事实”与“观点”:确保所有引用数据准确,区分哪些是客观事实,哪些是AI的推断。对AI的推断(如“市场地位稳固”)寻找更多证据支持或提出质疑。

构建核心叙事:围绕一个核心投资逻辑(如“国产替代先锋”、“细分市场隐形冠军”、“困境反转”)重新组织报告内容,强化主线,弱化枝节。

检查模型假设:重点审视估值模型中的关键假设(如永续增长率、折现率)是否合理。结合对管理层的访谈印象、产业链调研信息,判断业绩预测的达成概率。

2. 风险与竞争力的定性升华

操作:对AI识别的风险与竞争力进行深度加工。

风险分析深化:

排序与权重:AI给出的风险列表是平等的,研究员需根据概率和影响程度,区分“主要风险”和“次要风险”。

关联性分析:指出风险之间的关联(如“客户集中度高”的风险,可能加剧“应收账款回收”的风险)。

应对措施评估:分析公司自身对主要风险是否有明确的应对策略,其有效性如何。

竞争力分析深化:

护城河判断:AI可能列出“技术优势”,研究员需深入判断这是否构成可持续的护城河(是专利壁垒,还是容易被赶超的工程经验?)。

管理层评价:将无法量化的管理层能力、诚信记录、战略眼光等内容,融入竞争力或风险分析。

3. 做出最终投资建议

操作:这是完全且必须由研究员负责的环节。

综合决策:综合考虑量化估值区间、定性分析结论、市场情绪、组合配置需求等因素。

生成明确建议:在“估值与投资建议”章节,清晰地给出“买入”、“持有”或“卖出”评级,以及目标价区间。

阐述理由:用1-2段简练有力的文字,概括支持该建议的核心逻辑,并提示主要风险。此部分必须为研究员原创,不能由AI生成。

本步骤输出:一份经过研究员深度修改、批注,并确定了最终投资建议的报告修订稿。

4.6合规质检、发布与知识管理

核心任务:确保报告的合规性与专业性,并将本次研究产生的知识资产沉淀下来。

具体操作详解:

1. 自动化合规与质量检查

操作:系统运行一套规则引擎对终稿进行扫描。

合规规则:检查是否包含完整的免责声明;检查是否存在“保证”、“承诺”等违规词语;确认数据来源是否均已标注。

质量规则:检查图表编号是否连续;检查参考文献格式是否统一;进行基本的拼写和语法复查。

2. 版本控制与发布

操作:

(1)生成最终版本号:按规则生成,如`830999_深度报告_20240527_V2.1_FINAL.pdf`,其中`V2.1`表示第二次大修改后的第一次小修改。

(2)发布至指定平台:自动上传至内部研究系统、Wind/Choice等终端,并邮件通知相关客户或内部用户。

(3)完整归档:将最终报告、所有中间数据、模型运行日志、研究员修改记录,打包存入知识管理系统,实现全过程可追溯。

3. 反馈闭环与系统优化

操作:

绩效追踪:系统持续追踪预测的准确性(如季度后,对比实际营收与预测值)和风险预警的有效性。

收集反馈:在内部平台,收集其他研究员或用户对报告质量的评分和评论。

模型迭代:定期(如每季度)利用新的数据和反馈,对AI预测模型和预警模型进行重新训练和优化。

知识库更新:将本次研究中验证有效的分析角度、提示词优化、数据来源,更新到中央知识库,提升未来所有报告的质量。

通过以上六个步骤的闭环执行,我们构建了一个从数据到洞察、从自动化到人机协同、从生产到进化的完整新

第五章未来展望

5.1 未来发展趋势:从人机协同全自动生产线演进

未来3-5年,AI写研报确实有潜力逐步转向全自动生产线模式,但这是一场依赖技术与制度双重匹配的演进。

1.全自动化的可能性全自动生产线意味着系统能自主处理从数据搜集、假设提出、推理分析到报告成形的整个链条,人类角色则退居到异常干预或战略把关的位置。

2.落地节奏预测预计在未来3-5年,领先机构可能会在标准化任务(如日常财务跟踪或行业监测)上率先试水全自动化。

3.阻碍因素目前模型在应对突发政策调整或意外风险事件时,仍存在“独立决策”能力不稳固的问题,容易出现偏差或幻觉。

5.2 供应需求发展与竞争格局:认知优势取代信息优势

1供需分析长尾覆盖与产能释放

需求端随着注册制深化,市场对中小市值及新三板公司的研究需求激增,AI将填补这一长尾覆盖空白。

供给端AI写研报的普及将大幅压低研究成本,解决人力供给不足的问题。

2竞争格局从信息优势转向认知与模型优势

范式转移传统上,研究价值多半靠信息获取的及时性和独家性,但AI的RAG和多模态能力会让数据更趋民主化,削弱信息壁垒。

核心竞争力取而代之的将是“认知优势”(对复杂关系的洞察力)和“模型优势”(基于私有数据调优的Graph RAG和知识图谱)。行业格局将从“规模经济”转向“认知经济”。

5.3 技术发展和产品及服务升级:数字化团队与模块化

1产品形态升级:数字化团队

AI写研报的未来产品形态将从单个工具转向“数字化团队”,即借助多智能体框架(MAS),组建虚拟研究小组 。模块化分工“数据Agent”专攻信息搜罗,“分析Agent”负责推理运算,“校验Agent”把关一致性。这种模块化设计将显著提高研究的重复利用性和迭代速度。这一趋势在摩根士丹利最新的实践中已初现雏形。其投资管理团队开发的Culture Quant系统,不再局限于处理金融指标,而是利用机器学习实验室的技术,对3亿名员工的替代数据进行非结构化分析,从而精准计算出企业的‘劳动力成本结构’与‘自动化潜力’。 这种模式下,AI负责处理海量的非结构化人力数据(Data Agent),人类研究员则利用这些数据构建‘动态生命周期分析’框架(Strategy Agent),共同判断哪些公司能从AI浪潮中获益。这种‘AI处理全量数据 + 人类设计价值框架’的协作,正是未来数字化研报团队的典型缩影。

2技术底座升级:RAG + Graph RAG

未来的技术核心在于Graph RAG(图谱检索增强)在处理复杂金融关联时的建模作用,以及多模态融合对财报PDF、图表等非结构化内容的解析能力。

5.4 监管与收入利润展望:角色重塑与合规审计

1监管与合规:逻辑审计与可追溯性

合规挑战随着全自动化的推进,监管体系必须跟上步伐,确保责任链条清晰和合规边界明确。

人机责任人类研究员将扛起最终责任,重点在于“逻辑审计”,包括修正AI输出的偏差、补充深度见解以及合规审核。解释工具(如可视化模型决策逻辑)将成为合规的必需品。

2收入与利润模式

成本端如果全自动化顺利落地,将大幅压低研究成本。

人员价值重估人类研究员的角色将从“操作执行”向“策略判断”迁移。研究流程将从依赖个人经验的隐性过程,转向可拆解、可复核、可追溯的流程化体系。行业利润将更多来源于高阶的策略设计而非基础的数据加工。

第六章规划与数据来源

1.Choice金融终端

2.Revelations in the Global DataSphere , 2024: Key Trends and TakeawaysDoc# US5226992420249月)

3.Bloomberg Professional Services——Introducing BloombergGPT, Bloomberg’s 50-billion parameter large language model, purpose-built from scratch for financeMarch 30, 2023

4.Morgan Stanley Investment Management. (2025, April). AI Beneficiaries: Investing in Second-Order Effects. Counterpoint Global Insights.

5.WIND专项培训ALICE

6.东吴证券 AI金融新纪元】系列报告(一)——金融垂类大模型试用体验