大模型 RL Infra

创建时间: 2026-04-28 来源: [[sources/翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4|4]] 相关: Post-Training-EraWeng-JiayiTianshou


大模型 RL infra vs Toy Task RL infra

翁家翌同时做过两端——清华/CMU 时期的 toy task RL(VisDoom、Atari、MuJoCo)和 OpenAI 的大模型 RLHF infra——他的对比:

维度Toy Task RL大模型 RL
瓶颈环境:环境复杂、模型简单模型:环境简单(就是个 prompt),模型巨大
采样成本几乎免费几百到几千秒一次 inference
训练成本低廉极高,需要高效分布式训练
环境物理/游戏模拟(VisDoom, Atari)纯文本(prompt → response → reward)
调参难度”比 CV 难 10-100 倍,都是玄学”核心不靠调参——靠 infra 正确性和迭代速度
核心技能heuristic 的 corner case 处理end-to-end 优化、分布式训练、bug 修复吞吐量

核心洞察:toy task 的 bottleneck 在环境,大模型 RL 的 bottleneck 在模型本身。

为什么 Infra 是瓶颈

迭代速度决定一切

RL 本质上就是 trial-and-error——不断尝试,尝试到一定次数就能达到目标。因此:

“单位时间内能迭代多少次、能正确迭代多少次,剩下不重要。”

Google 团队(Barret、Luke、Liam)加入 OpenAI 后引入的”先进生产力”就是这张图:单位时间迭代次数 × 成功率 → 模型性能。

Bug 修复吞吐量

“每家的 infra 都有不同程度的 bug,谁修的 bug 越多,谁的模型性能就越好。”

“如果你把 bug 全修了,那你有可能算法连改都不用改,就很好。”

这不是夸张——infra 中的隐藏 bug 直接导致:

  • 训练结果不可复现
  • checkpoint 质量无法判断
  • 迭代方向错误(在坏 infra 上做实验等于白做)

为什么组织规模伤害迭代速度

  • 人多了 → context sharing 不一致 → infra 开始臃肿 → 迭代速度下降
  • 每个大公司都有这个问题:“不是谁最好,是谁不那么差”
  • 翁家翌目前在做的事:推倒重来,重构 OpenAI 内部 infra,清理三年多积累的 technical debt

RLHF 的核心挑战

Checkpoint 选择

最核心的困难不是训练,而是判断哪个 checkpoint 更好

  • 单一 reward 会发生 reward hacking(reward 可能先涨后跌,或饱和成一条直线)
  • benchmark 分数方差极大,噪音很多
  • 最终方法:拉下来人工交互 + 多人类投票(本质上还是 HF eval)

从 Transformer + RL 会崩到能 work

翁家翌 2019 年在 Mila 时,Transformer 直接跑 RL 会崩,当时没人知道怎么防止。后来的答案是:

  • 环境是纯的(纯文本,不是图像 patch + 游戏状态)
  • reward 是强的(人类反馈信号强,不是稀疏的游戏得分)

生态位:RL Infra 是 infra 最顶层

翁家翌选择做 RL infra 而非底层 infra(data loader、storage)的策略原因:

  • RL 是 infra 栈的最顶端 → 每个模型发布都需要 RLHF → 名字必然出现在贡献者列表
  • “如果你做底层,你的名字可能不太会被看到”
  • “卖铲子最面向客户的那一位”

未来方向

  • scale up 还没到极限:现有方法 + 现有算力还没榨干,先等 large scale RL 实验的 scaling curve 爬完
  • infra bug 还很多:哪怕 OpenAI 也不能说 100% 没 bug
  • Agent + RL post-training 没有本质差别:同样的框架,只是中间多了几步 tool call,环境变了一些
  • AI 取代顺序:先取代 researcher(idea 便宜),再取代 infra engineer,最后取代 sales(说服人买单需要人对人)

引用

  • “你觉得瓶颈在于修 infra 的 throughput,吞吐量,你单位时间内能修多少 bug。”
  • “教一个 researcher 如何做好 engineering 要远比教一个 engineer 如何做好 research 来得难。”
  • “RL 就是不断 trial and error,尝试到一定次数就可以达到目的——很多生活中的 case 其实都是 RL。“

参考资料

  • 来源:4