大模型 RL Infra
创建时间: 2026-04-28
来源: [[sources/翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4|4]]
相关: Post-Training-Era,Weng-Jiayi,Tianshou
大模型 RL infra vs Toy Task RL infra
翁家翌同时做过两端——清华/CMU 时期的 toy task RL(VisDoom、Atari、MuJoCo)和 OpenAI 的大模型 RLHF infra——他的对比:
| 维度 | Toy Task RL | 大模型 RL |
|---|---|---|
| 瓶颈 | 环境:环境复杂、模型简单 | 模型:环境简单(就是个 prompt),模型巨大 |
| 采样成本 | 几乎免费 | 几百到几千秒一次 inference |
| 训练成本 | 低廉 | 极高,需要高效分布式训练 |
| 环境 | 物理/游戏模拟(VisDoom, Atari) | 纯文本(prompt → response → reward) |
| 调参难度 | ”比 CV 难 10-100 倍,都是玄学” | 核心不靠调参——靠 infra 正确性和迭代速度 |
| 核心技能 | heuristic 的 corner case 处理 | end-to-end 优化、分布式训练、bug 修复吞吐量 |
核心洞察:toy task 的 bottleneck 在环境,大模型 RL 的 bottleneck 在模型本身。
为什么 Infra 是瓶颈
迭代速度决定一切
RL 本质上就是 trial-and-error——不断尝试,尝试到一定次数就能达到目标。因此:
“单位时间内能迭代多少次、能正确迭代多少次,剩下不重要。”
Google 团队(Barret、Luke、Liam)加入 OpenAI 后引入的”先进生产力”就是这张图:单位时间迭代次数 × 成功率 → 模型性能。
Bug 修复吞吐量
“每家的 infra 都有不同程度的 bug,谁修的 bug 越多,谁的模型性能就越好。”
“如果你把 bug 全修了,那你有可能算法连改都不用改,就很好。”
这不是夸张——infra 中的隐藏 bug 直接导致:
- 训练结果不可复现
- checkpoint 质量无法判断
- 迭代方向错误(在坏 infra 上做实验等于白做)
为什么组织规模伤害迭代速度
- 人多了 → context sharing 不一致 → infra 开始臃肿 → 迭代速度下降
- 每个大公司都有这个问题:“不是谁最好,是谁不那么差”
- 翁家翌目前在做的事:推倒重来,重构 OpenAI 内部 infra,清理三年多积累的 technical debt
RLHF 的核心挑战
Checkpoint 选择
最核心的困难不是训练,而是判断哪个 checkpoint 更好:
- 单一 reward 会发生 reward hacking(reward 可能先涨后跌,或饱和成一条直线)
- benchmark 分数方差极大,噪音很多
- 最终方法:拉下来人工交互 + 多人类投票(本质上还是 HF eval)
从 Transformer + RL 会崩到能 work
翁家翌 2019 年在 Mila 时,Transformer 直接跑 RL 会崩,当时没人知道怎么防止。后来的答案是:
- 环境是纯的(纯文本,不是图像 patch + 游戏状态)
- reward 是强的(人类反馈信号强,不是稀疏的游戏得分)
生态位:RL Infra 是 infra 最顶层
翁家翌选择做 RL infra 而非底层 infra(data loader、storage)的策略原因:
- RL 是 infra 栈的最顶端 → 每个模型发布都需要 RLHF → 名字必然出现在贡献者列表
- “如果你做底层,你的名字可能不太会被看到”
- “卖铲子最面向客户的那一位”
未来方向
- scale up 还没到极限:现有方法 + 现有算力还没榨干,先等 large scale RL 实验的 scaling curve 爬完
- infra bug 还很多:哪怕 OpenAI 也不能说 100% 没 bug
- Agent + RL post-training 没有本质差别:同样的框架,只是中间多了几步 tool call,环境变了一些
- AI 取代顺序:先取代 researcher(idea 便宜),再取代 infra engineer,最后取代 sales(说服人买单需要人对人)
引用
- “你觉得瓶颈在于修 infra 的 throughput,吞吐量,你单位时间内能修多少 bug。”
- “教一个 researcher 如何做好 engineering 要远比教一个 engineer 如何做好 research 来得难。”
- “RL 就是不断 trial and error,尝试到一定次数就可以达到目的——很多生活中的 case 其实都是 RL。“
参考资料
- 来源:4