翁家翌
创建时间: 2026-04-28
来源: [[sources/翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4|4]]
相关: RL-Infra-for-LLM,Tianshou,Post-Training-Era,Personal-Evaluation-Systems,tuixue-online,Flat-Organization
身份
OpenAI 核心贡献者,从 GPT-3.5 到 GPT-5 所有模型发布背后的 post-training RL infra 搭建者和维护者。2022 年加入 OpenAI,由 John Schulman(张书曼)招募。
时间线
| 时期 | 事件 |
|---|---|
| 小学 | 一年级开始学奥数,数学题做得比谁都快 |
| 初中 | 初一接触编程;初二自学完高中数学;初三学微积分 |
| 高中 | 信息学竞赛(OI),高二进福建省队,拿清华降 60 分录取 |
| 2016-2020 | 清华本科,朱军实验室,VisDoom 强化学习项目冠军 |
| 2019 夏 | Yoshua Bengio 实验室暑研,做类似 MOE 的 Transformer 语言模型 |
| 2020-2021 | CMU Master,疫情期间在家上网课一年;开发天授和 tuixue.online |
| 2022.07 | 加入 OpenAI,John Schulman 的 RL team |
| 2022.08 | 在新 Infra 上调通第一版 PPO(用 GPT-4 跑) |
| 2022.11 | ChatGPT 发布,贡献者列表 Schulman 之后 12 人之一 |
| 2023-2025 | 持续维护/开发 post-training RL infra,覆盖 GPT-4/4V/4o/4.5/5 |
职业选择
拒绝了 DeepSeek(幻方 AI Lab)的 offer。 当时幻方说要搞 AI Lab(后来的 DeepSeek),方向正是 RL-Infra。同时还有英伟达(RL System)、FAIR(流程原因被拒)、Google、AutoML 的 offer。
选择 OpenAI 的核心原因:
- OpenAI 和 DeepMind 是当时 RL 领域最好的两个 research lab
- 想体验最前沿的 research 到底是怎么做的——“不是像学校里面几个 PhD 手搓一个东西”
- John Schulman 认可他的 GitHub(开源项目),认为”有良好工程能力的人对任何项目都有益”
核心贡献
在 OpenAI 内部搭建了整个 post-training 的 RL (RLE) infra,所有模型发布都用这套 infra 训练 RLHF 模型。他自己将其定位为”卖铲子最面向客户的那一位”——RL 是整个 infra 的最顶端,生态位高。
个人职业策略: 最大化在 OpenAI Blog 上出现名字的次数。做法是选择 infra 而非单个 research——infra 被所有人使用,可以 scale up;单个 research 不能。
核心信念
1. 信息差应该被打破
- 清华期间开源所有作业和上古材料(无版权问题的)
- 开发天授、tuixue.online 全部免费开源
- 动力:“不想让后人重蹈覆辙,疲于奔命”
- 认为代码工具应该是一种慈善
2. 成功 = 记得你名字的人数
高中时突然冒出的想法:“如果人生是一场游戏,结算分数是记得你名字的人数。”
- 不是 fame(名声可能有负面),而是做对大家有意义的事
- GitHub star、tuixue 点击量、model release 列表上的名字——都是这个 metric 的具体化
- 只对自己这样要求,不对外施加这个标准
3. 投资未来
从初二自学高中数学开始,就意识到的底层逻辑:
- “与其浪费时间刷题,不如学对未来有用的东西”
- 目标是让十年后的自己有资源、有能力做想做的事
- 现在的重心:提前退休,有足够资本后去找真正想做的事
4. 确定性世界观
相信世界是确定论的——人是没有自由意志的,一切在宇宙大爆炸时就已注定。
- 尝试证伪但失败,虽然情感上不愿接受
- 应对策略:忘掉这一切,假装不知道,去体验当前的经历
- 认为时间是高维的、非线性的——可能是未来的自己在帮助过去的自己
5. AGI 之后呢?
- 曾以为自己想通了想要什么,现在又想不通了
- “这个问题值得一生去思考”——即使是站在 AI 最前沿的人也是如此
- 对 infra 工作的热情在”看到头了”之后开始消退
关键语录
- “如果你想进工业界,那么读 PhD 就是浪费生命。”
- “每家的 infra 都有不同程度的 bug,谁修的 bug 越多,谁的模型性能就越好。”
- “教一个 researcher 如何做好 engineering 要远比教一个 engineer 如何做好 research 来得难。”
- “idea 非常便宜,你要做的是单位时间内能验证多少有效的 idea。”
- “技术不重要,重要的是抓住需求。”
- “最好的方式就是忘掉这一切,假装你不知道这个事,然后去体验当前的一些经历。“
参考资料
- 来源:4