2026 年 4 月 15 日,英国金融行为监管局(FCA)发布《合成数据与反洗钱项目报告》,系统披露了其联合多方机构打造的全球首个监管级反洗钱合成数据集项目的完整研究成果。

该项目直面全球反洗钱领域长期存在的 “技术创新需真实数据支撑” 与 “客户隐私保护不可突破” 的核心矛盾,论证了合成数据在反洗钱监管与技术创新中的核心价值,也为全球金融监管机构与金融机构的反洗钱数字化转型提供了全新范式。
一、项目背景:全球反洗钱的核心痛点与项目初衷
据行业专家测算,全球每年经犯罪分子清洗的资金规模占全球 GDP 的 2%-5%,折合美元约 8000 亿至 2 万亿美元,巨额非法资金流动不仅破坏金融市场完整性,更对社会安全造成持续危害。为应对这一挑战,全球金融机构每年投入大量资源搭建反洗钱(AML)监测体系,但行业始终面临着难以突破的核心瓶颈。
反洗钱监测的核心逻辑,是识别跨账户、跨主体、跨交易类型的可疑行为网络,而非单一异常交易。这意味着,反洗钱模型的训练、测试与验证,必须依托高度还原真实金融交易特征的数据集。但现实中,使用真实客户数据面临着严苛的法律合规风险与伦理挑战,完全的匿名化处理往往会剥离数据中对洗钱识别至关重要的关联特征,而中小金融机构、金融科技企业更是难以获取合规的真实银行数据,反洗钱技术创新的门槛被大幅抬高。
在此背景下,FCA 发起合成数据与反洗钱专项项目,核心目标有二:一是打造一套具备统计真实性、隐私保护性、嵌入真实洗钱行为模式的全合成数据集,为机构提供安全的反洗钱技术实验环境;二是验证人工智能等新兴反洗钱检测手段在打击金融犯罪中的实际价值。
该项目为多机构联合协作的成果,FCA 提供监管引领与技术支撑,阿兰・图灵研究所贡献合成数据领域的研究与技术能力,Plenitude Consulting 提供金融犯罪行业专业经验,Napier AI 则输出金融犯罪检测的技术落地能力,同时获得了英国信息专员办公室(ICO)等机构的专业指导。项目也深度契合 FCA 2025-2030 年战略规划、英国经济犯罪计划的核心目标,是 FCA 向数据驱动型监管转型的重要实践。
二、核心价值:合成数据为何能成为反洗钱创新的关键抓手
合成数据,指通过算法生成的、复刻真实数据统计特征,却不对应任何真实个体与交易的虚拟数据。在反洗钱场景中,其核心价值在于完美平衡了 “数据真实性” 与 “隐私保护性” 的核心矛盾,报告中明确了其六大核心优势:
全流程保护个人隐私,从根源上规避真实客户数据泄露与滥用的风险; 大幅降低反洗钱技术创新的实验门槛,机构无需获取敏感的真实银行数据即可完成模型测试; 具备极强的可共享性,打破行业内的数据孤岛与创新壁垒; 可作为标准化的测试、训练与基准验证工具,实现不同机构反洗钱模型能力的横向对比; 减少行业对实时银行运营数据的过度依赖,拓宽反洗钱技术研发的场景边界; 可通过预设洗钱行为模式,精准验证机构工具对特定洗钱类型的识别能力。
报告特别指出,当合成数据与差分隐私等正式隐私保护机制结合时,能够在保留真实金融行为复杂性、保障模型训练测试有效性的同时,彻底杜绝个人数据泄露风险,实现保真度、实用性与隐私性的最优平衡。
三、数据集构建:技术路径与洗钱类型学设计
项目形成了一套严谨的全合成数据集生成方法论,核心分为三大核心步骤:第一步,获取源头已完成匿名化处理的真实银行数据,且初始数据请求中完全排除了个人身份细节信息,从源头控制隐私风险;第二步,由金融犯罪领域专家设计合成洗钱行为类型学,将真实世界的洗钱模式注入基础数据中;第三步,采用行业公认的自适应迭代机制(AIM)这一差分隐私合成数据生成算法,基于注入洗钱类型的匿名化源数据,生成最终的全合成数据集。AIM 算法通过引入可控的随机化处理,既确保无法从合成数据中反向还原任何真实个体与交易信息,又完整保留了反洗钱分析所需的核心行为模式。
在数据集的核心价值内核 —— 洗钱类型学设计上,项目实现了 “标准化” 与 “复杂性” 的双重兼顾。一方面,专家团队纳入了行业公认的成熟洗钱行为模式,包括为规避申报阈值拆分交易、通过多账户快速转移资金掩盖来源、资金经多层中介后回流起点的循环交易等,确保数据集贴合合规团队与监管机构的真实工作场景;另一方面,为避免形成静态、可预测的规则化模式,项目为基础洗钱类型设计了多样化的行为变体,还原真实金融犯罪的复杂性与多样性,确保反洗钱模型接受的是贴近现实的测试挑战,而非简单的规则匹配。
四、测试验证:数据集的实用性与合规性双重确认
数据集生成后,项目团队从四大核心维度完成了全面测试,验证其是否满足反洗钱场景的实际应用需求。
在统计保真度测试中,合成数据集与匿名化源数据的核心统计指标差异极小,完整复刻了真实金融交易的统计特征。尤为关键的是,合成数据保留了真实金融数据中固有的 “行为模糊性”—— 部分数据特征无法被单一归因,既可能是注入的洗钱模式,也可能是隐私保护设计的衍生特征,或是自然涌现的真实行为,这种不确定性恰恰与真实金融数据的复杂性高度契合。
在隐私保护验证中,隐私保护贯穿了数据集生成的全流程。团队通过源头排除个人信息、生成环节嵌入隐私保护控制、使用环节严格限定访问主体与合同约束三重机制,形成了完善的风险防控体系,有效抵御了个人信息重识别风险,同时通过全流程监督,平衡了隐私保护强度与数据细节丰富度。
在洗钱类型可检测性测试中,团队采用行业标准方法验证了注入洗钱模式的可识别性。测试结果显示,数据集中的洗钱行为形成了梯度化的检测难度,既避免了模式过于简单导致测试失去意义,也防止了模式过难无法验证模型能力,完美匹配了反洗钱技术测试的核心需求。
而项目最终的真实世界验证,将通过 FCA 数字沙盒发起的 “合成数据反洗钱解决方案冲刺活动” 完成。该数据集将向参与活动的机构开放,聚焦人工智能等新兴反洗钱检测技术的验证,申请通道将于 2026 年 4 月 26 日关闭。这一活动将打破行业内孤立的创新模式,推动反洗钱领域的开放协作,而参与者的反馈也将成为数据集迭代优化的核心依据。
五、局限与风险:理性看待合成数据的应用边界
报告并未回避合成数据在反洗钱场景中的固有局限与潜在风险,而是进行了全面的梳理与提示,为行业应用划定了清晰的边界。
项目落地过程中,团队面临三大核心挑战:一是真实感与隐私保护的平衡难题,例如完整的邮政编码存在极高的重识别风险,团队仅保留邮编前缀以平衡实用性与隐私性,同时为避免数据集比真实数据 “更干净”,未强行修正所有数据异常;二是数据内部一致性的保障难题,洗钱行为高度依赖账户、主体、交易之间的关联关系,团队通过构建关联数据集保障整体一致性,但仍存在部分分支标识、货币相关的异常,且 AIM 算法对时序化交易序列的还原能力存在天然局限;三是洗钱类型学的覆盖局限,数据集仅能纳入已被识别、编码的已知洗钱模式,无法覆盖犯罪分子正在使用的未知洗钱手段,存在天然的信息滞后性。
面向未来,项目也提示了三大潜在风险:其一,金融犯罪行为始终处于动态演变中,若数据集不能同步纳入新兴洗钱类型,将快速过时,甚至导致机构的反洗钱系统仅能适配 “过往的风险”;其二,合成数据可能出现非设计的涌现性特征,机构若将此类数据伪影误判为真实风险指标,将扭曲模型开发与测试结果,形成虚假的性能信心;其三,可能出现机构针对数据集嵌入的特定洗钱模式过度优化,而非提升整体反洗钱检测能力,甚至出现机构将合成数据视为真实运营数据的替代品,过度依赖合成数据而忽视真实世界的模型校准与验证。
报告反复强调,设计良好的合成数据,应当是真实运营数据的重要补充,而非替代品,必须纳入更完整的反洗钱检测与验证体系中使用。
六、后续规划与行业启示
基于本次项目成果,FCA 明确了后续的核心推进方向。短期来看,核心工作是完成合成数据反洗钱解决方案冲刺活动,基于参与者的反馈完成数据集的迭代优化;长期来看,FCA 将探索扩大数据集的行业访问范围,同步完善配套的治理规则、隐私控制与国际标准对齐,并重点推进三大方向的探索:洗钱类型学的持续扩展、数据集跨沙箱应用的访问与治理框架、沙箱实验结果的标准化评估指标与验证协议。
报告最终得出核心结论:设计完善的合成数据具备显著的分析价值与应用潜力,能够为金融机构与监管机构提供安全的反洗钱技术实验环境,让金融科技企业无需获取敏感真实数据即可验证反洗钱工具的有效性,大幅拉平行业创新的竞争门槛,推动反洗钱领域的良性竞争与技术创新。
而该项目的意义远不止于反洗钱领域本身。其为全球金融监管提供了一套 “隐私保护与技术创新协同推进” 的可行范式,证明了监管机构与行业可以通过合成数据实现深度协作,共同破解金融服务领域长期存在的隐私保护与创新发展的两难问题,也为全球金融监管的数字化、数据化转型树立了全新标杆。