IMI研报 | 人工智能赋能金融——效率提升与风险治理

导读

当前，AI正从早期的问答助手快速走向能够自主调用工具、执行流程任务的Agent形态，在投研、风控、信息提取与辅助决策等核心场景中展现出显著潜力；与此同时，信息泄露、越权调用、恶意攻击等新型安全问题也随之出现，要求技术创新与制度治理同步推进。本文系统展示了基于大语言模型构建的“人大-新华”A股上市公司行业分类体系，同时介绍了利用生成式AI挖掘多维度隐性关联、结合图神经网络构建企业风险传导网络的研究进展。同时，本文认为需警惕过度数据挖掘、算法合规、版权侵权、AI Agent安全及劳动力市场结构性冲击等风险，未来需在推进AI技术应用的同时，构建完善的风险治理体系，以期为金融行业平衡技术效率提升与系统性风险治理、推动人工智能健康可持续发展提供学术洞见与实践指引。

为什么金融尤其需要人工智能？

当前，我们正处于人工智能技术飞速发展的历史节点。2022年11月ChatGPT问世，标志着通用人工智能迈出历史性一步，开启了大模型在金融非结构化信息分析上的新可能；2025年初DeepSeek-R1发布，将高质量推理成本降至学术可承受范围，体现出中国AI研发的韧性与创造力。与此同时，通义千问开源系列大模型持续迭代，多模态处理与文本嵌入能力不断提升，为中文金融文本分析提供了有力的基础工具。从国家战略层面看，中央金融工作会议明确提出建设金融强国、做好科技金融与数字金融等“五篇大文章的目标”；2025年8月国务院印发“人工智能+”行动意见，推动智能体在金融、商务、法律等领域的广泛应用；央行《金融科技发展规划》亦将AI列为核心技术，推动风险管理从“人防”到“智控”的转变。

在产业实践层面，AI已从概念验证进入规模化落地阶段。中国银行计划未来五年为AI全产业链提供不低于1万亿元专项金融支持；工商银行完成DeepSeek本地化部署，赋能200余个业务场景；北京银行启动“All in AI”战略，落地90余个金融应用；腾讯云联合沪深交易所、中国银行等将AI大模型落地超100个金融场景，智能资讯分析效率提升30倍，信贷尽调周期由10天缩短至1天。Swift联合13家国际银行进行AI模型试验，欺诈识别准确率提升100%，交易审查处理由数天缩短至几分钟。截至2025年底，中国金融科技专利申请量达46419件，居全球第一。

与此同时，AI正经历从“Chat”到“Agent”的范式转变。2026年初爆发式流行的开源AI智能体框架OpenClaw，发布数日即获得GitHub 10万+星标，截至2026年3月突破25万，并在我国迅速完成DeepSeek和微信的本土化适配。AI Agent不再是对话助手，而是能自主执行任务、调用工具、操作计算机的“数字员工”，在金融领域可自动化执行交易策略、管理投资组合、生成合规报告。然而，热潮背后的安全风险不容忽视：2026年2月Hudson Rock检测到OpenClaw配置被恶意软件攻陷，API密钥与对话历史泄露；Cisco发现第三方技能存在数据窃取和提示注入攻击；同年3月Claude Code因npm包误带source map暴露大量源码，随后引发伪造仓库和恶意软件传播。2026年3月，我国已限制国有企业和政府机关在办公电脑上运行OpenClaw应用，以防范潜在安全风险。

金融行业天然适合AI，其核心在于信息处理。5000余家A股上市公司的年报、公告、研报、专利总量以亿字计，传统分析师团队只能覆盖有限比例。大语言模型使得系统性“阅读”全市场文本、提取经济信息并转化为可量化金融变量的新范式第一次成为现实。但AI本身存在前瞻性偏差、幻觉和过拟合等风险，若不加以审慎处理，也可能误导决策。因此，近期研究同时关注AI如何提升效率、辅助风险识别，以及AI应用本身需要警惕的风险。

人工智能如何重塑行业边界：基于大语言模型的A股上市公司行业分类

在学术界，基于大模型的金融研究进展迅速。在语义分析与市场预测方面，Lopez-Lira和Tang（2023）率先证明ChatGPT新闻情感信号能预测股票收益；Siano（2025，Management Science）表明LLM能从财报电话会议中捕捉传统方法难以识别的细微语义信号；Jha等人（2024a，2024b）展示了ChatGPT从电话会议中提取资本支出和宏观展望信息的能力。在风险管理领域，Pele等人（2026）提出了LLM-VaR和LLM-ES方法，以零样本方式估计在险价值和期望损失。在企业网络构建方面，Breitung和Müller（2025）利用10-K年报构建了上市公司全球商业网络。

行业分类是金融实证研究的重要基础设施（McGahan和Porter, 1997），但A股现有的多套行业分类标准存在三大不足：一是更新滞后，对并购重组或业务转型通常存在1-2年的滞后期；二是细分赛道区分不足，组内公司同质性低；三是方法不透明、难复现。中国上市公司协会分类严格参照国标，首要目标是统计和行政监管而非金融研究；申万、万得分类虽更贴近市场，但编制方法不公开。Hoberg和Phillips（2016，JPE）利用美国10-K年报产品描述文本构建了动态TNIC行业分类，但这类数据驱动方法在中国市场一直处于空白状态。

本团队的核心思路是：两家公司在年报中描述的业务内容高度相似，则归为同一行业。这一分类体系追求三大目标——客观性（分类方法公开透明，可复现，可根据具体研究需要调整）、准确性（聚类准确，能够捕捉相似企业，组间差异大，组内差异小）和实时性（及时反映企业业务转型）。研究收集了2007至2023年间沪深两市全部A股上市公司的52702份年报“管理层讨论与分析”（MD&A）文本，采用“嵌入—聚类—命名—测试”四步骤方法构建分类体系。

第一步：嵌入。使用Qwen-text-embedding-v4文本嵌入模型将每份MD&A映射为2048维语义向量。考虑到模型输入长度限制，首先将每篇MD&A文本划分为若干段落，分别计算各段落的嵌入向量，再以段落嵌入向量的均值作为该篇文本的整体向量表示。为增强嵌入对行业语义的捕捉能力，研究在调用模型时加入任务指令（Prompt）以提升模型信息提取能力。最终对每个MD&A文本生成一个2048维语义嵌入向量，用于描述该公司的业务模式。

第二步：聚类。基于52702个嵌入向量，研究采用层次聚合聚类（Agglomerative Hierarchical Clustering）方法，配合平均链接（Average Linkage）准则和归一化欧氏距离，自底向上构建三级分类体系。这一方法完全由数据自下而上驱动，避免了预设行业定义可能带来的先验偏差。在归一化前提下，欧式距离和余弦距离存在单调映射关系，归一化欧氏距离的平方根特性在聚合过程中能有效压缩极端样本对的惩罚权重，使聚类算法对MD&A文本中的局部噪声更加鲁棒。具体而言，三级分类的构建过程如下：三级分类层面，先将全部向量聚合为300类，再通过动态小簇合并机制将簇内少于5个点的微小簇并入最近的大簇，得到271个三级行业；二级分类层面，基于三级聚类结果构建簇间距离矩阵，继续聚合至150类后将少于30个点的小簇合并，得到102个二级行业；一级分类层面，在二级结果上继续聚合至50类后将少于300个点的小簇合并，得到26个一级行业。动态小簇合并机制的创新性引入，既解决了传统层次聚合聚类容易产生大量极小孤立簇的缺陷，同时也保证了分类体系的完全嵌套关系——若任意两家上市公司归属于同一三级行业，则它们必然也归属于同一个二级行业和一级行业。

第三步：命名。研究创新性地采用基于大语言模型的两阶段命名策略——“局部摘要-全局命名”，避免人工命名带来的偏好偏差。首先使用具备长上下文处理能力的Qwen-Long模型，对各行业抽样读取MD&A文本，生成详尽的行业业务画像总结；然后使用Qwen3-Max模型将所有行业的业务摘要整合为单一输入进行全局对比分析，赋予符合中国A股市场通用术语的行业名称（如“基础化工”“食品饮料”“高端装备”等），名称长度严格控制在2-6个中文字符，确保名称互斥。二级行业命名时还显式引入一级行业信息作为先验背景，使二级名称体现出对一级行业的从属或细分关系。

第四步：测试。构建分类体系后，研究从行业间差异性、行业内相似性和资产定价三个维度，将LLM分类与申万三级分类、万得四级分类及中国上市公司协会分类进行系统比较。评价指标选取了营业利润率（OpMargin）、资产回报率（ROA）、营业收入增长率（RevGrowth）和资本支出增长率（CapxGrowth）四个在相同业务公司间高度相似的财务特征指标。衡量逻辑是：一个好的分类标准应该把最相似的公司放入同一个类别中，使得类内差异最小、类间差异最大。

最终形成的“人大-新华”分类体系涵盖26个一级、102个二级和271个三级行业。26个一级行业包括：高端装备、食品饮料、医药生物、电子元件、软件服务、农林牧渔、基础化工、种子农业、交通运输、电力设备、公用事业、纺织服装、文化传媒、建筑材料、商业零售、房地产、综合转型、交运能源、金融服务、家电部件、旅游酒店、轨道交通、造纸包装、高速公路、石油化工和环保水务。聚类层次完全嵌套。数据显示，综合转型行业从2007年的294家骤降至2023年的3家，电子元件行业则从71家扩张至766家，生动反映了中国产业结构的动态演变——高新技术产业和先进制造业快速扩张，而部分传统行业则面临调整或增长瓶颈。

在行业间差异性方面，研究计算了各分类体系下不同行业在四个核心财务指标上的标准差，标准差越大表明行业间财务特征差异越显著。结果显示，在同等类别数量粒度下，LLM分类体系在多数指标上均优于同级别的申万、万得分类。以营业利润率为例，“人大-新华”三级分类的标准差为0.266，而申万三级仅为0.131——LLM行业区分度约为传统分类的两倍。在一级分类层面，LLM分类标准差（0.113）同样显著高于申万一级（0.064）、万得一级（0.097）和万得二级（0.079）。在二级分类层面，LLM二级（0.188）显著超过申万二级（0.102）与万得三级（0.098）。

在行业内相似性方面，研究采用行业哑变量回归的R²作为衡量指标，R²越高表明同一行业内公司在该指标上越趋同。结果显示，LLM分类在多数指标上均具有更高的R²解释力。以营业利润率为例，“人大-新华”三级分类的平均R²为0.144，高于申万三级的0.102和万得四级的0.095。更高的R²意味着同一行业内企业在关键特征上更相似，LLM分类能更好地实现“类内相似、类间差异”的分类目标。

在资产定价检验中，研究基于Hoberg和Phillips（2018）的行业“领先-滞后”效应，结合Du等人（2025）关于A股高价股动量更显著的发现，构造了对冲投资组合。具体方法为：每月末在收盘价不低于10元且流通市值位于市场前70%的股票池中，计算过去11个月（排除最近一个月）同行业公司平均累计收益率作为“领先-滞后”特征，采用双重独立排序——按收盘价（前10%与后10%）和领先-滞后特征（前20%与后20%）独立排序后取交集，做多“高价股+高领先-滞后”组，做空“高价股+低领先-滞后”组。结果表明，“人大-新华”二级和三级分类产生了统计显著的正收益（月均收益分别为1.29%和1.53%，T值分别为2.43和2.81），而其他分类体系的对应组合均未产生显著正收益。经Fama-French五因子模型调整后，LLM三级分类的等权Alpha为1.60%（T=3.00），经中国四因子模型调整后等权Alpha为1.80%（T=2.84），均高度显著；而申万和万得体系在多数设定下均未能产生统计显著的Alpha。Fama-MacBeth横截面回归进一步证实，“人大-新华”二级分类交乘项系数为0.0148（t=2.05），加入资产增长率、公司规模、账面市值比和毛利率等控制变量后仍在5%水平显著，其他分类体系均不显著。

“人大-新华”A股上市公司行业分类数据集已于2026年3月正式发布并在新华财经数据终端上线，可供金融从业者和研究人员使用。

人工智能如何识别风险链条：基于生成式AI的公司关联网络

企业间的关联网络对于理解系统性风险至关重要。2018年东方园林债券违约表面仅为单一公司信用事件，但迅速引发蒙草生态、铁汉生态、道氏技术等多家公司股价大跌，累计损失市值超150亿元。Acemoglu等人（2015）系统揭示了这一机制：关键企业的微观冲击可通过供应链、信用链层层放大，引发宏观波动。在中美科技竞争背景下，出口管制和关税变化可能通过隐性关联网络传导影响大量表面上无直接关联的企业。

现有描述企业关联的方法大多局限于单一维度——供应链联系（Cohen和Frazzini，2008）、行业竞争（Hoberg和Phillips，2016）、地理位置（Parsons等人，2020）、技术专利（Lee等人，2019），共同问题是依赖结构化数据、更新频率低、覆盖范围有限、难以捕捉多维度隐性关联。

我们团队正在推进的国自科面上项目，试图利用大语言模型从企业年报文本中挖掘多维度隐性关联，再结合图神经网络（GNN）整合为复合企业网络结构。方法分为三步：第一步，将年报按段落拆分为文本单元，由大模型评估每个单元与特定经济概念（产品市场竞争、产业链上下游、技术创新、市场风险暴露、地理关联等）的相关度并赋分（0-100分）。例如，“天然气消费量为4930亿立方米，同比下降12%”这一文本，在风险关联性维度获85分，主营业务关联性获70分，技术关联性为0分，体现了大模型精细化的多维度语义理解能力。第二步，在每个概念维度上提取各公司得分最高的文本段落，用嵌入模型转化为语义向量，通过余弦相似度构建企业间邻接矩阵。第三步，用GNN通过消息传递机制融合多维度网络，能够动态学习节点间关联权重，并通过多层结构捕捉间接关联——因为风险传导往往层层传递。

基于所构建的网络，研究计划在三个核心场景中检验其价值：股票收益率预测、股价风险预测（NCSKEW、DUVOL和下行Beta）以及参数化投资组合优化方法（Brandt，Santa-Clar和Valkanov，2009）。研究将在中美两个市场同时进行检验，分析不同制度环境和市场结构下网络效应的异质性。

人工智能应用的关键约束

AI赋能金融的同时，其应用本身的风险同样不可忽视。前瞻性偏差是当前几乎所有使用大模型进行金融预测的研究都面临的系统性风险。大模型训练数据涵盖互联网海量信息，分析某一历史时点的企业年报时，模型可能无意中利用了后来才出现的信息（Glasserman和Lin，2023；Ludwig等，2025）。比如：让大模型分析2015年小米公司年报，由于模型“知道”小米来来涉足电动汽车，可能使用未来信息判断小米主营业务已涵盖汽车行业。学术界提出的主要应对方案是文本匿名化——通过NER技术去除公司名称、人名、地名等标识信息（Kim等，2024），或利用LLM对原始文本进行实体替换和改写（Engelberg等，2025），使大模型无法判断文本属于哪家公司、哪个年份。

然而，我们团队最新完成的研究论文《Anonymization and Information Loss》揭示了匿名化方法的重要局限。核心发现包括五个方面：其一，匿名化导致情感信号解释力显著下降，R²从0.132降至0.124，对比回归中标准化系数从2.331骤降至0.775；其二，信息损失主要来源于数字和机构名称的移除，地名移除影响相对较小；其三，信息损失在文本不确定性高、企业透明度低时更为严重；其四，信息损失可能大于前瞻性偏差，截止日前后两个时段比较，原始文本对匿名化文本的信息优势没有显著扩大；其五，上述发现在多种任务、多个模型、多类文本中均广泛稳健。这项研究对整个“AI+金融”领域提出了重要的方法论警示：匿名化不应被视为万全之策，更合理的做法是同时使用截止日前后的样本进行对比分析，区分偏差消除和信息损失两种效应。

Figure 1: Anonymization Pipeline (Wu et al., 2026)

此外，AI金融应用还面临多重风险。在过度数据挖掘方面，Harvey等人（2016）分析316个因子后指出大量显著性为数据挖掘产物，AI大幅降低“发现”新模式的成本，加剧“人工愚蠢”效应。在算法合规方面，大模型可能自发“发现”违规但有利可图的策略，全国人大2025年已将AI立法列为预备审议项目，欧盟AI法案已生效。在版权风险方面，2026年1月斯坦福和耶鲁研究团队发现主流LLM深度“记忆”版权书籍内容，部分可复现70%以上。在AI Agent安全方面，API密钥泄露可能导致未授权交易，提示注入可能操纵投资决策。在通用模型金融专业性不足方面，“负债”在金融语境中可能为中性甚至正面，“做空”在专业领域是常规对冲手段，通用模型存在系统性偏差。

AI对全球劳动力市场的结构性冲击已从理论走向现实。世界经济论坛报告指出到2030年全球将有9200万个岗位因AI被淘汰，高盛估算约3亿个全职岗位受生成式AI实质影响，2026年3月AI已成为美国企业裁员的首要原因（占月度裁员的25%）。对金融行业而言，数据处理、报告撰写、合规审核等规则性岗位面临直接替代风险，大规模就业替代还可能通过消费萎缩等渠道产生系统性影响。如何在推进AI应用的同时妥善管理劳动力市场的转型阵痛，已成为政策制定者和金融机构必须正视的重大课题。

总结与展望

报告围绕“效率提升”与“风险治理”两条主线，系统探讨了人工智能如何赋能金融。基于LLM的A股行业分类全面优于传统标准，实现了数据驱动、透明可复现、年度自动更新的范式转变。多维度概念赋分与GNN融合构建的复合企业关联网络，覆盖收益率预测、风险预测、投资组合优化三大核心场景。前瞻性偏差与匿名化信息损失的权衡揭示了匿名化非万全之策，数据挖掘、合规伦理、版权记忆、Agent安全和劳动力冲击等问题同样需要审慎治理。展望未来，2026年“十五五”开局之年，随着金融专属大模型持续演进、多模态数据融合、监管框架完善以及AI Agent从Chat到Action的跃迁，人工智能将在市场定价效率提升和系统性风险治理中发挥越来越核心的作用。

延伸阅读

围绕人工智能赋能金融的效率提升与风险治理，“大金融思想沙龙”第274期与会嘉宾围绕实践路径、网络风险、信息治理等方面展开深入讨论。

国家金融与发展实验室副主任杨涛从研究与实践结合的角度，深入剖析了“人工智能+金融”在应用层面的现状与挑战。他指出，当前大模型在金融领域面临多重自身层面的制约：在技术层面，模型幻觉、准确性不足等问题仍较突出，易引发错误决策；在监管与客户层面，算法黑箱使得责任追溯困难，消费者信任难以建立，而模型同质化倾向可能加剧金融市场的系统性与稳定性风险。此外，科技伦理与价值对齐问题也不容忽视。基于此，行业需在应用中形成若干共识，包括聚焦合理的投入产出比、增强自身生存与可持续发展能力，以及精准服务实体经济，既要理性认识大模型的应用价值，也要推动大小模型协同与轻量化发展。面向未来，他认为应从更高层面完善治理与保障机制：加快健全相关法律法规与标准体系；夯实数据、算法、算力基础，建立权威的第三方评估评价机制；强化金融消费者保护，提升监管智能化水平；针对智能体支付等前沿应用场景，需推动技术规则、理论政策等快速研究并有效应对。

清华大学至善书院院长、北京雁栖湖应用数学研究院数字经济实验室研究员汤珂指出，大模型作为信息提供方，可高效完成金融信息的提取与理解，显著提升行业效率，但需警惕联网使用带来的前瞻性偏误风险。为此，他提出四点核心看法：一是人工智能算法能够突破传统线性因子模型的局限，优化因子设计，克服均值方差测量难题，提升选股效果；二是大模型必须具备可解释性，并融入经济学理论知识；三是保障数据安全、遵循人工智能伦理规范是人工智能在金融领域获得更多应用的核心前提；四是金融领域应采用人机协同框架，但应由人类承担最终决策责任。

复旦-斯坦福中国金融科技与安全研究院执行院长、复旦大学经济学院教授刘庆富围绕金融领域的“可信AI”与虚假信息治理展开了深入探讨。他认为，“十五五”期间，数字金融正从数据驱动向“模型驱动+可信治理”的新阶段演进。金融大模型需满足准确、真实、可控、安全四大要求。尽管大模型面临幻觉放大、数据偏见、不可解释等问题，但多模态数据的应用已在气候风险测度、遥感期货定价、财务舞弊预警识别等场景深度赋能金融业务。针对AIGC时代的虚假信息泛滥问题，他表示，金融机构应构建包含顶层设计、数据治理、模型治理与内容治理四位一体的可信AI应对体系。此外，AIGC虚假信息治理要以提升质量与完善监管为目标，坚持发展与安全并重；治理重心应从单纯的内容管控转向落实主体责任，从真假判断转向“可识别、可追溯、可问责”；通过落实源头强制标识、平台强化审核、模型合规监管及提升公众素养，实现“四端”协同发力。

中国民生银行风险管理部巴塞尔协议III及智能风控管理中心处长刘吕科深入剖析了大模型在金融领域的应用。他表示，大模型正从获客营销向风险管理纵深推进，不仅能有效缓解信息不对称、提升运营效率，同时也逐渐成为对抗“黑灰产”的防御工具。然而，目前大模型的应用仍存在现实挑战，主要面临数据合规、算法伦理偏见及权责界定三大难题。尤其在授信审批中，由于大模型无法独立承担不良贷款的追责，当前仅能作为辅助决策的“体检报告”。展望未来，大模型技术的业务落地需与社会大趋势同步，其发展高度取决于社会接受度与配套措施的完善。最后，他充分肯定了吴轲教授的论文符合业务实际，指出国标行业划分存在局限，实际风控仍需依赖人工复核，建议增加压力情形下的分类稳定性考察；同时，提议进一步探讨基于知识图谱构建企业关联风险指数。

注：本文系中国人民大学国际货币研究所研究报告，编号IMI Report No.2606，发布于“大金融思想沙龙”第274期，作者：吴轲（中国人民大学财政金融学院应用金融系主任、教授）

选题：货币银行与金融监管选题组

观点整理：余植巽、和逸飞、徐宇航

监制：商倩

版面编辑｜宋童菲

责任编辑｜阎奕舟、孔姝潼

主编｜朱霜霜

近期热文

海外之声 | 银行业的AI时刻：国际案例与启示
潘功胜在第53届国际货币与金融委员会会议上的书面发言
中国加密资产监管的结构性转向：从“全面围堵”到“分类治理”
中央加杠杆：化解风险还是转移风险
央行购金走到了何处？

ZBlogIt

Nice to meet you, too!

IMI研报 | 人工智能赋能金融——效率提升与风险治理

wang 发表于2026-04-21 08:50:30 浏览1 评论0

少长咸集

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30