很多教你用 Obsidian 做第二大脑的文章,都没有告诉你当你的知识库内容太多了,大脑可能会宕机。
Claude Code 配上 Obsidian 搭建的 LLM Wiki 知识库看上去非常完美,可当知识库中包含的博客,文章,论文,日记,文档,视频脚本,音频文本,越来越多之后,Claude Code 基于索引的搜索会越来越吃力,不要半年,你就会发现搜索的精度开始逐渐下降。
而本文要介绍的重点 QMD 就是补上这个缺陷的最佳选择,装上之后,无论你的知识库有多大,Claude Code 都能迅速帮你定位到相关内容,给你最准确的结果,还能节约大量的搜索 token 消耗。
这篇文章主要讲三点:
- 是什么: 什么是第二大脑?小白也能在十分钟内搭好 Obsidian + Claude Code 的第二大脑教程。
- 为什么: 为什么文档一多第二大脑就会开始变弱,以及为什么 QMD 是目前解决问题的最佳工具。
- 怎么做: 学会判断什么时候开始要上 QMD,一步一步手把手教你配置上。
一、第二大脑:Obsidian + Claude Code
如果你还没有自己的第二大脑,这里教你五分钟搭建完成。
第一步:下载安装 Claude Code(Codex、OpenClaw、Hermes、OpenCode、Cursor 等等都可以)以下统称 Claude Code。
第二步:下载安装 Obsidian。
第三步:打开 Obsidian 新建 Vault。
第四步:在该目录下创建文件 Claude.md,并把下面 Andrej Karpathy 这篇 LLM Wiki 的规则放进去。
https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
第五步:在该目录下打开 Claude Code,和他说:
帮我按规则配置好这个知识库
它会自己把整套目录建好:
raw/:原始材料,每篇文章、对话、视频字幕直接扔进来wiki/:编译后的笔记,按主题或概念组织index.md:手写的入口页,记录你的知识地图log.md:所有历史更改的记录
第二大脑是怎么工作的?
- 它先给你录入 raw 的文章写一份总结,再提取其中概念,每个概念建一个单独的页面。
- 文章里提到的人物会建页面,提到的工具会建页面,提到的方法也会建页面。
- 然后它会更新
index.md,把新建的页面都登记进去。以后你只需要把wiki/index.md的地址丢进任何一个 AI,它就自动接入了你的知识库,什么问题都会从你的知识库里找答案,而不是去互联网上乱搜。
最厉害的一点是你去录入自己的想法,自己平时的思考,AI 之后会越来越懂你。你让它帮你写东西,它知道你的风格。让它帮你做判断的时候,它知道你的过去,用得越久越好用。
而且因为是分级查询,AI 先读 index 找到相关页面再去读具体内容,不用把所有笔记一股脑全塞进去。token 省得多。
之后你不管看到什么好的内容,或是自己的日记,想法,录音,还有任何素材都可以直接扔进 raw,只要说一句"帮我录入",wiki 就会多出来 5-10 篇内容。
二、wiki + index 也有自己的天花板
但这套系统也有自己的天花板。三个具体的极限场景。
场景一:index 变长之后,定位精度下降。
wiki 系统跑顺之后,wiki 页会稳定增长。按 Karpathy 的 schema,每 ingest 一篇 raw 通常产出或更新 5-10 个 wiki 页。一个 vault 跑半年,wiki 上百是常态。
然后 index.md 自己就变成几百行。它是 agent 每次 query 的第一站,每次 query 都先把这几百行读进 context。token 没省,定位精度还下降——分类越细,agent 越要在七八个相近的概念页之间纠结。原本"读 index → 读 wiki"的两跳路径,开始变成"读 index → 翻 3-5 个 wiki 都不对 → 再回去看 index"。
场景二:跨分类的语义搜索 index 帮不上。
Karpathy 的 schema 把 wiki 分成 Concept、Entity、Synthesis、Self-analysis、Comparison 等多类,按主题分到各自文件。
但你的真实查询往往跨类。比如你想找回"独立开发心态怎么变了"——这个问题可能横跨 self-analysis 页(你两年前的复盘)、synthesis 页(你对独立开发的整体看法)、raw 里某段你跟朋友的对话残片。index 是按"页是什么类型"分类的,不是按"什么概念出现在哪里"分类的。这种跨类搜索它帮不上。
Claude Code 自带的搜索工具 grep 也帮不上,因为"心态变化"四个字可能一次都没出现。
场景三:raw 里的细节丢失。
这是最隐蔽的一条,也是最致命的。
按 Karpathy 的 SOP,raw 被 ingest 之后产出的是 wiki 综述页——概念、实体、对比、自我分析。这是设计上的取舍:wiki 页只保留主题骨架,不保留 raw 里的具体细节、原话、例子、数字。
举个例子。你 raw 里塞了一个 30 篇的 AI 课程笔记系列,ingest 之后压成了 2 个 wiki 页(一个课程地图、一个方法清单)。这两页能告诉 agent “这门课的整体框架和核心方法”,但第 5 课讲的那个调试技巧、第 8 课那个具体的例子、第 14 课那段的原话,全在 raw 里,没进 wiki。
raw 里几百篇文件,每一篇都可能藏着你后来想找回的某段具体话。但 ingest 把它们全压扁成了 wiki 综述,原文进不了 agent 的检索路径。除非你记得文件名直接打开 raw,否则那些细节就跟没存在过一样。
这三件事的共同根因不是"wiki 模式错了",而是 wiki 模式擅长"已编译知识",但整个 vault 还需要一层全文语义检索,覆盖那些没编译进 wiki 的内容、跨分类的查询、和 index 自己膨胀到看不过来的情况。
而且替代方案也不能是"让 agent 把整个 raw 全读一遍"——那样 token 会爆炸。你需要的是一个能精准定位、只返回相关片段、顺带把 token 省下来的工具。
2026 年做这件事最佳是 QMD。
三、RAG 弥补 wiki 模式的缺口
RAG 是什么
RAG 的全称是 Retrieval-Augmented Generation,中文叫"检索增强生成"。
本质就一句话:你问 AI 之前,先去你的知识库里搜出最相关的几段,再让 AI 根据这些和你问题最相关的内容回答。
LLM 不是凭空回答,它是基于"刚刚搜出来的那几段"回答。答案里出现的事实、引用、细节,全是从你的知识库里来的。
注意:RAG 不是要替代 wiki + index。两者解决的不是同一个问题。wiki + index 解决"把已经知道重要的东西编译成结构化知识";RAG 解决"在整片 vault 里找跟当前 query 最相关的零散片段"。一个管编译,一个管搜索,互补。
再进一步,混合检索
向量搜索能找到"意思像但字面不像"的内容。你搜"独立开发心态变化",它能命中你两年前 raw 里某段播客笔记里写的"独立开发的尽头是无聊"——一个字都没重复,意思走到了一起。
那是不是有了向量搜索就够了?
不够。向量搜索有自己的死穴:无法精确检索。
你搜 “qmd v2.1.0”,向量搜索可能给你返回 v2.0、v1.9 的相关内容,因为它们语义上太像了。而你要的是那个确切的版本号。
这种时候 BM25(基于关键词频率的精确匹配算法)反而完胜。
所以真正靠谱的检索方案是混合检索:BM25 抓精确,向量抓语义,再用一个小模型做重排,把两路结果按相关性重新排一遍,把最好的几个挑出来。
QMD 全部做到了。
四、为什么是 QMD
架构正确效果好
QMD 的检索流程跟 Google 搜索和 Anthropic Claude 内部检索系统是同一个套路。
用户搜索进来,先用一个 fine-tune 过的小模型做 query expansion,每个变体并行跑 BM25 和向量搜索,所有结果用 RRF 合并排序,再扔给 qwen3-reranker 做最终重排,最后按位置加权出最相关的几条。
这套流程在 2020 年之后的学术 IR 论文里被反复验证。QMD 只是把它打包了:以前你要写几万行代码,现在自动装好。
完全本地,免费,使用简单
这是个人 RAG 与企业 RAG 的根本分水岭。
企业级 RAG 烧钱在两件事上:托管向量数据库(Pinecone、Weaviate)每月几百美金,调用 embedding API(OpenAI text-embedding-3)按 token 计费。
QMD 把这两件都本地化了。
阿里在这件事里贡献最大。Qwen3 是中文用户能在本地跑出商业级检索质量的基础。如果没有 Qwen3,个人 RAG 这件事在中文场景下还得多等一年。
QMD 本质上是个日用工具,应该跟 grep、ripgrep 一样免费,跟你的操作系统、跟你的笔记软件一样属于基础设施。
还帮你省一大笔 token
QMD 一个隐性好处:让 Claude Code 调用第二大脑时的 token 用量暴降。
原理简单:以前 agent 用 grep 找东西,命中几个文件就要全文读完,一次问答轻松烧两万 token。装了 qmd 之后,agent 直接 query 拿回 3-5 段最相关的片段,每段几百 token,加起来不到一千。
实测参考:Andrew Levine 公开过他的 600+ notes Obsidian vault 数据——没装 qmd 时一次问答烧 15000 token,装上之后同样查询只用 500 token,省 96%。从下载到能用,他说花了 5 分钟。
如果你正在为 Claude 的 token 用量心疼(尤其是用 API 计费、不是订阅),这件事比免费还实际。
Tobi 和 Karpathy 共同推荐
QMD 的作者是 Tobias Lütke,Shopify 创始人兼 CEO。
他 2026 年 3 月连发推说自己在睡前调 query-expansion 模型,GitHub 上 qmd 的 repo 现在已经 25000+ stars。
一个公司估值数百亿美金的 CEO,深夜不睡觉去写一个个人 markdown 检索工具,说明的事情很简单:他自己被同样的问题烦到了。他维护的笔记规模和你我一样会撞上检索瓶颈,他选择自己写一个。
Karpathy 在 llm-wiki Gist 的 “Optional: CLI tools” 章节原话写:
“A search engine over the wiki pages is the most obvious one — at small scale the index file is enough, but as the wiki grows you want proper search. qmd is a good option.”
翻译过来:wiki 还小的时候 index 文件就够,但 wiki 长大之后你需要真正的搜索 —— qmd 是个好选择。
五、装 QMD:一个提示词搞定
cd 到你的第二大脑目录,启动 Claude Code,把下面的内容粘贴给它:
帮我装一下 qmd,把当前目录接进来做检索,我是中文笔记。
npm install -g @tobilu/qmd—— 装 qmd CLI 本体
claude plugin marketplace add tobi/qmd && claude plugin install qmd@qmd—— 装 plugin(自动注册 MCP server + 配套 skill)
qmd collection add . --name brain—— 把当前目录配置为知识库切到 Qwen3-Embedding-0.6B 多语言模型(中文知识库必做)
qmd embed -f—— 生成向量索引
第一次会下载约 2.4GB 的本地模型,等几分钟。下载完之后所有 embedding 都在你电脑本地跑,不联网,不烧 API。
为什么要切 Qwen3:QMD 默认 embedding 模型是英文优化的,中文知识库切到 Qwen3-Embedding-0.6B 能够大大提升检索质量。
这一步在英文教程里没人讲。
之后 Claude Code 调用第二大脑时会自动走 qmd,你不用做任何事。新增笔记只要偶尔跑一下 qmd update 增量索引就行。
结语
要不要立刻装,Karpathy 在 llm-wiki Gist 里给了判断标准:
“index 模式在大约 100 个文件、数百页 wiki 的规模下非常好用。但随着 wiki 长大,你需要真正的搜索 —— qmd 是个好选择。”
按这个标准对照你自己的第二大脑:
- 一百个文件,几百个 wiki:可以先继续用 index,以后再考虑 qmd。
- 已经感觉 agent 搜索效果变差,或 wiki 数量近千:尽快考虑 qmd,提高搜索效果的同时省钱。
如果你希望你的第二大脑可以长久地运作下去,QMD 是你最值得考虑的工具。
评论