大模型 RL Infra

创建时间： 2026-04-28 来源： [[sources/翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4|4]] 相关： Post-Training-Era，Weng-Jiayi，Tianshou

大模型 RL infra vs Toy Task RL infra

翁家翌同时做过两端——清华/CMU 时期的 toy task RL（VisDoom、Atari、MuJoCo）和 OpenAI 的大模型 RLHF infra——他的对比：

维度	Toy Task RL	大模型 RL
瓶颈	环境：环境复杂、模型简单	模型：环境简单（就是个 prompt），模型巨大
采样成本	几乎免费	几百到几千秒一次 inference
训练成本	低廉	极高，需要高效分布式训练
环境	物理/游戏模拟（VisDoom, Atari）	纯文本（prompt → response → reward）
调参难度	”比 CV 难 10-100 倍，都是玄学”	核心不靠调参——靠 infra 正确性和迭代速度
核心技能	heuristic 的 corner case 处理	end-to-end 优化、分布式训练、bug 修复吞吐量

核心洞察：toy task 的 bottleneck 在环境，大模型 RL 的 bottleneck 在模型本身。

为什么 Infra 是瓶颈

迭代速度决定一切

RL 本质上就是 trial-and-error——不断尝试，尝试到一定次数就能达到目标。因此：

“单位时间内能迭代多少次、能正确迭代多少次，剩下不重要。”

Google 团队（Barret、Luke、Liam）加入 OpenAI 后引入的”先进生产力”就是这张图：单位时间迭代次数 × 成功率 → 模型性能。

Bug 修复吞吐量

“每家的 infra 都有不同程度的 bug，谁修的 bug 越多，谁的模型性能就越好。”

“如果你把 bug 全修了，那你有可能算法连改都不用改，就很好。”

这不是夸张——infra 中的隐藏 bug 直接导致：

训练结果不可复现
checkpoint 质量无法判断
迭代方向错误（在坏 infra 上做实验等于白做）

为什么组织规模伤害迭代速度

人多了 → context sharing 不一致 → infra 开始臃肿 → 迭代速度下降
每个大公司都有这个问题：“不是谁最好，是谁不那么差”
翁家翌目前在做的事：推倒重来，重构 OpenAI 内部 infra，清理三年多积累的 technical debt

RLHF 的核心挑战

Checkpoint 选择

最核心的困难不是训练，而是判断哪个 checkpoint 更好：

单一 reward 会发生 reward hacking（reward 可能先涨后跌，或饱和成一条直线）
benchmark 分数方差极大，噪音很多
最终方法：拉下来人工交互 + 多人类投票（本质上还是 HF eval）

从 Transformer + RL 会崩到能 work

翁家翌 2019 年在 Mila 时，Transformer 直接跑 RL 会崩，当时没人知道怎么防止。后来的答案是：

环境是纯的（纯文本，不是图像 patch + 游戏状态）
reward 是强的（人类反馈信号强，不是稀疏的游戏得分）

生态位：RL Infra 是 infra 最顶层

翁家翌选择做 RL infra 而非底层 infra（data loader、storage）的策略原因：

RL 是 infra 栈的最顶端 → 每个模型发布都需要 RLHF → 名字必然出现在贡献者列表
“如果你做底层，你的名字可能不太会被看到”
“卖铲子最面向客户的那一位”

未来方向

scale up 还没到极限：现有方法 + 现有算力还没榨干，先等 large scale RL 实验的 scaling curve 爬完
infra bug 还很多：哪怕 OpenAI 也不能说 100% 没 bug
Agent + RL post-training 没有本质差别：同样的框架，只是中间多了几步 tool call，环境变了一些
AI 取代顺序：先取代 researcher（idea 便宜），再取代 infra engineer，最后取代 sales（说服人买单需要人对人）

引用

“你觉得瓶颈在于修 infra 的 throughput，吞吐量，你单位时间内能修多少 bug。”
“教一个 researcher 如何做好 engineering 要远比教一个 engineer 如何做好 research 来得难。”
“RL 就是不断 trial and error，尝试到一定次数就可以达到目的——很多生活中的 case 其实都是 RL。“

参考资料

来源：4

Notes Wiki

Explorer

RL-Infra-for-LLM

大模型 RL Infra