天授 (Tianshou)

创建时间: 2026-04-28 来源: [[sources/翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4|4]] 相关: Weng-JiayiRL-Infra-for-LLM


是什么

翁家翌在 2020 年(CMU Master 期间)开发的强化学习开源框架。目标是提供一个好用好改的 RL 工具,让 researchers 能快速实现和验证 RL 算法。

诞生过程

  1. 起因: 2019 年 12 月有强烈冲动——“已经写了很多 RL 实验代码,为什么不整合一下?”
  2. 尝试 RLLib: 2020 年 2 月看了一个月 RLLib(基于 Ray)的代码——“太复杂了,几十万行,抽象太多,不知道怎么改”
  3. 决定推倒重来: 直接手撸,两周做出第一版
  4. 第一版能力: 多个 RL 算法,对着 paper 实现——“如果把抽象搞对,实现算法可能就是 20 行不到一个算法”

为什么成功

抓住了用户需求

当时的 researcher 普遍痛点:没有好用好改的 RL 框架。天授代码短、抽象清晰,用户知道自己要改什么——而且只有一个地方能改。

一致性 (Consistency)

“代码或者说一个项目,更有用的东西是 consistency。如果从头到尾都是一致性的,它就是一个好项目。”

对比 RLLib 的腐化原因:

  • 多人贡献,各自写代码,互不知道对方写了什么
  • 假设 (assumption) 无法及时传递
  • 代码膨胀 → 复制粘贴 → 进一步腐化

一个人的高效迭代

初期由翁家翌一个人包办所有代码,保证了一致性。后期维护权转移给社区,有一个拍板人来维持一致性。

局限性

  • 面向 toy benchmark:Atari、MuJoCo 等学术界标准环境,不适用于工业级的 LLM RL
  • 翁家翌在 2022 年 8 月意识到这点后逐步停止开发——因为他在 OpenAI 接触到了真正的工业级 RL infra,知道天授的方向与前沿需求已经脱节
  • 继任者的 context 不同,有一些代码腐化(重写了部分代码,不够 consistent)

与 OpenAI RLE Infra 的对比

天授代表的是 toy task RL 的极致——环境是瓶颈,模型简单,采样和训练都便宜。

OpenAI 的 RLE infra 则完全反过来——环境简单(prompt),模型巨大,瓶颈在高效采样、高效训练、分布式 scale up。

两者的设计哲学完全不同,不可直接迁移。

评价体系中的角色

天授是翁家翌追求的”导师推荐的三指标”之一——GitHub 三位数 star。他当时虽然有一个课程 repo(作业开源),但想要一个”正儿八经的三位数”。天授满足了这个目标。

引用

  • “如果抽象搞对的话,那么实现算法可能就是 20 行不到一个算法。”
  • “很多项目的腐化都是由于不一致性。”
  • “当我在 2022 年 8 月意识到这一点的时候,我就已经逐步停止了天授的开发——天授还是针对这些 Toy Benchmark。“

参考资料

  • 来源:4