引言
最近一直在关注“AI知识库”的相关概念,首先想到的应用场景就是期货投研。日常在交易期货的过程中,除了价格本身的涨跌,也想在价格变化的背后了解更多品种/产业链的知识,提高一下自己的认知。
加上前期手头收集了很多券商的研报,大约500篇了,之前还想每周看个几篇,但是一来效率比较低,新手很容易放弃,二来本职工作也不是当投研的,看完之后隔段时间就忘了,一直也没有沉淀出来什么东西。
一、知识库的本质
我有个习惯就是面对一些很唬人或者没听说过的概念时,喜欢一上来就问本质是啥(尤其是对于金融产品),不玩虚的。
说白了,知识库就是在一个文件夹目录下的一堆markdown文档,这是形式,而核心的知识就是.md文档中记载的内容,重点在于这些内容是咋从几百篇研报中提取出来的,以及如何定义哪些内容是知识,如何管理这些知识。
知识库的整个目录大致长这样:

01_Sources 用来保存原始资料,主要是PDF格式的研报、公众号大V的博客、一些期货的书籍。
02_Processing 保存 PDF 转换成的.md文件。
03_Knowledge 是整个知识库最核心的部分,是从众多研报中提取出的品种/投研框架的内容,

其中,以品种/产业链的知识为例,每个md文件是提炼和归纳出来的品种手册

而研究框架中是一些共性的分析方法论:

整体来看,知识库是在传统的“研报文件夹”基础上,借助AI的能力搭建的一套经过重新整理的投研知识体系。
二、搭建知识库的流程
2.1 理念
这次搭建知识库用到的理念是卡帕西提出的 LLM Wiki。
过去做知识库,常见的方式是(包括腾讯的ima)是保留十篇研报,等到提问时再让 AI 临时检索,这种方式更像是“让 AI 帮我找资料”。
上传一批 PDF → 建立索引 → 提问 → AI从原文中检索答案
LLM Wiki 的理念是:
不要让 AI 每次都重新阅读全部原始资料,而是让它参与知识的提炼、合并、连接、维护。
假设十篇研报都提到了库存周期,现在就是把这些内容逐步沉淀到同一个知识页面里【库存周期分析.md】,随着新研报进入,这个页面可以不断补充,这样,知识不再跟着某一篇研报走,而是围绕一个长期主题持续生长。
2.2 目前使用的工具
Obsidian

Obsidian 用来承载整个知识库,可以是看作知识库这个文件夹的一种打开方式,比较适合做知识管理的原因在于以下几个功能点:
可以给每个文档建立标签tag
可以建立文件之间的双向链接
文件保存在本地,也方便让 Agent 读取和修改
比如在“螺纹钢品种手册”里,可以链接到以下几个文档:
[[供需平衡表]][[库存周期]][[产业链利润]][[基差与期限结构]][[黑色累库压力阶段]]
这样,一篇篇孤立的笔记就会慢慢变成一个知识网络。
MinerU

很多原始研报是 PDF,不能直接稳定地被后续程序处理。
所以我会先用 MinerU 把 PDF 转成 Markdown,再做格式清洗。
大致过程是:
PDF研报 → 转成Markdown → 清理页眉页脚、乱码和重复内容 →进入待处理区
Markdown 对人和 AI 都比较友好,也更适合后续拆解、打标和引用。
Agent工具(Codex/Cursor)
识别研报讲了哪些品种和主题
提取核心变量和判断逻辑
推荐标签和关联页面
找出重复内容
补充双向链接
检查哪些知识长期没有更新
2.3 工作流
01_Sources(自己下载的东西放在这里)
↓
02_Processing(转换后的.md文件)
↓
03_Knowledge(真正的知识)
↓
04_Data(可以接入最新行情和产业数据,结合投研知识输出观点)
↓
05_Outputs(消费的产物,例如:复盘、报告、观点或通俗解读)
三、知识库如何被消费?

其实本次用LLM wiki的理念搭建的这个知识库算是专业领域学习,我觉得不太适用于日常的一些笔记或者太零散的东西;
对于在期货投研这个专业领域而言,我觉得有几个消费场景:
快速学习一个新领域
比如我想研究螺纹钢。过去可能需要自己先找很多报告,再慢慢拼接产业链、供需、库存、利润和基差逻辑。
有了知识库之后,可以先让 AI 基于已有内容生成一个学习路径:
螺纹钢是什么
→ 上下游产业链→ 供给和需求→ 库存与季节性→ 成本和利润→ 基差与期限结构→ 典型市场阶段→ 历史策略案例→ 常见误判
这样不是直接拿到一个“答案”,而是先拿到一张学习地图。
套用框架,再结合最新数据形成观点
知识库保存的是长期框架,但市场判断一定要结合最新数据。
这里,知识库负责提供“分析骨架”,数据负责提供“最新事实”,人负责完成最终判断。
因为真正的研究并不是拿到一个方向结论,而是知道这个结论建立在什么条件上,以及什么时候应该推翻它。
生成不同形式的研究内容
如果能为研究所的老师提升一些工作的效率,那么还是很有价值的。
日报和周报
专题研究提纲
历史案例对比
研究复盘
公众号文章
面向普通投资者的品种解读
四、思考
信息过载的时代下,还是要提升自己的认知,面对AI 整理出来的东西,问问自己到底有没有真正理解
以终为始,想清楚搭建知识库是为了干什么,比陷入obsidian让人眼花缭乱的功能中更有意义。
后续希望能和自己的量价分析框架结合,组成更完善的分析思路和交易体系。
最后也欢迎感兴趣的朋友一起交流,共同进步~
ps:2026年了,公众号的文章模版是不是也可以考虑搞成.md格式了?