天授 (Tianshou)

创建时间： 2026-04-28 来源： [[sources/翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4|4]] 相关： Weng-Jiayi，RL-Infra-for-LLM

是什么

翁家翌在 2020 年（CMU Master 期间）开发的强化学习开源框架。目标是提供一个好用好改的 RL 工具，让 researchers 能快速实现和验证 RL 算法。

诞生过程

起因： 2019 年 12 月有强烈冲动——“已经写了很多 RL 实验代码，为什么不整合一下？”
尝试 RLLib： 2020 年 2 月看了一个月 RLLib（基于 Ray）的代码——“太复杂了，几十万行，抽象太多，不知道怎么改”
决定推倒重来： 直接手撸，两周做出第一版
第一版能力： 多个 RL 算法，对着 paper 实现——“如果把抽象搞对，实现算法可能就是 20 行不到一个算法”

为什么成功

抓住了用户需求

当时的 researcher 普遍痛点：没有好用好改的 RL 框架。天授代码短、抽象清晰，用户知道自己要改什么——而且只有一个地方能改。

一致性 (Consistency)

“代码或者说一个项目，更有用的东西是 consistency。如果从头到尾都是一致性的，它就是一个好项目。”

对比 RLLib 的腐化原因：

多人贡献，各自写代码，互不知道对方写了什么
假设 (assumption) 无法及时传递
代码膨胀 → 复制粘贴 → 进一步腐化

一个人的高效迭代

初期由翁家翌一个人包办所有代码，保证了一致性。后期维护权转移给社区，有一个拍板人来维持一致性。

局限性

面向 toy benchmark：Atari、MuJoCo 等学术界标准环境，不适用于工业级的 LLM RL
翁家翌在 2022 年 8 月意识到这点后逐步停止开发——因为他在 OpenAI 接触到了真正的工业级 RL infra，知道天授的方向与前沿需求已经脱节
继任者的 context 不同，有一些代码腐化（重写了部分代码，不够 consistent）

与 OpenAI RLE Infra 的对比

天授代表的是 toy task RL 的极致——环境是瓶颈，模型简单，采样和训练都便宜。

OpenAI 的 RLE infra 则完全反过来——环境简单（prompt），模型巨大，瓶颈在高效采样、高效训练、分布式 scale up。

两者的设计哲学完全不同，不可直接迁移。

评价体系中的角色

天授是翁家翌追求的”导师推荐的三指标”之一——GitHub 三位数 star。他当时虽然有一个课程 repo（作业开源），但想要一个”正儿八经的三位数”。天授满足了这个目标。

引用

“如果抽象搞对的话，那么实现算法可能就是 20 行不到一个算法。”
“很多项目的腐化都是由于不一致性。”
“当我在 2022 年 8 月意识到这一点的时候，我就已经逐步停止了天授的开发——天授还是针对这些 Toy Benchmark。“

参考资料

来源：4

Notes Wiki

Explorer

Tianshou