LLM Wiki

创建时间: 2026-04-27 来源: https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f 相关: Software-3.0


Andrej Karpathy 提出的一种由 LLM 维护个人知识库的模式。核心洞察:RAG 在每次查询时都从头发现知识;而 LLM Wiki 则增量式构建一个持久的、复利增长的产物。

核心类比

  • Obsidian → IDE
  • LLM → 程序员
  • Wiki → 代码库
  • 人类 → 策展人 / 产品经理

三层架构

  1. 原始来源 — 不可变的输入文档。LLM 只读,绝不写入。
  2. Wiki — LLM 拥有的 markdown 文件(页面、摘要、交叉引用)。
  3. 规范(CLAUDE.md)— 定义约定、模板和工作流的配置文件。

操作

  • 摄入 — LLM 读取来源 → 与人类讨论 → 撰写/更新 wiki 页面 → 记录操作。
  • 查询 — LLM 搜索 wiki → 综合回答 → 将好的答案归档回 wiki。
  • 检查 — 定期检查:矛盾、过时声明、孤立页面、断链、索引漂移。

为什么有效

维护知识库之所以繁琐,是因为记账工作——而非阅读或思考。当维护工作量不断累积时,人类会放弃 wiki。LLM 不会感到无聊,可以在一次操作中更新多个文件。

关键设计决策

  1. 来源与 wiki 严格分离——来源不可变,wiki 不断演化。
  2. 索引以内容为导向(按类别),而非按时间顺序。
  3. 日志按时间顺序且可 grep——操作可追溯。
  4. 好的答案不会消失在聊天中——它们会成为 wiki 页面。

社区评论

  • Zettelkasten 替代方案(SEO-Warlord):使用不可变的原子笔记而非可变的 wiki 页面。LLM 创建新原子和链接,绝不修改已有的。确保可审计性。
  • 完整性担忧(gnusupport):缺少审计追踪、编辑监督、来源溯源和引用完整性。
  • 幻觉风险(mauceri):引用的论文”LLMs Corrupt Your Documents When You Delegate”——信息质量可能在迭代中下降。
  • 模型权重作为产物(mo-vic):OpenCrab 将修正蒸馏到模型权重中,使模型本身成为累积产物。

衍生实现

  • Synthadoc — 三层设计的直接映射,支持多模型和审计。
  • Link — 基于 MCP,通过内存倒排索引解决”规模墙”问题。
  • claude-obsidian — 热缓存 + “DragonScale” 记忆层,带语义检查。
  • Repositories Wiki — 应用于代码库,为 agent 提供持久上下文。
  • 7xuanlu 的发现:存储前的质量门槛比任何其他因素都重要。

历史背景

精神上与 Vannevar Bush 的 Memex(1945)相关——“一个个人策展的知识库,文档之间有关联轨迹。”