翁家翌

创建时间: 2026-04-28 来源: [[sources/翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4|4]] 相关: RL-Infra-for-LLMTianshouPost-Training-EraPersonal-Evaluation-Systemstuixue-onlineFlat-Organization


身份

OpenAI 核心贡献者,从 GPT-3.5 到 GPT-5 所有模型发布背后的 post-training RL infra 搭建者和维护者。2022 年加入 OpenAI,由 John Schulman(张书曼)招募。

时间线

时期事件
小学一年级开始学奥数,数学题做得比谁都快
初中初一接触编程;初二自学完高中数学;初三学微积分
高中信息学竞赛(OI),高二进福建省队,拿清华降 60 分录取
2016-2020清华本科,朱军实验室,VisDoom 强化学习项目冠军
2019 夏Yoshua Bengio 实验室暑研,做类似 MOE 的 Transformer 语言模型
2020-2021CMU Master,疫情期间在家上网课一年;开发天授和 tuixue.online
2022.07加入 OpenAI,John Schulman 的 RL team
2022.08在新 Infra 上调通第一版 PPO(用 GPT-4 跑)
2022.11ChatGPT 发布,贡献者列表 Schulman 之后 12 人之一
2023-2025持续维护/开发 post-training RL infra,覆盖 GPT-4/4V/4o/4.5/5

职业选择

拒绝了 DeepSeek(幻方 AI Lab)的 offer。 当时幻方说要搞 AI Lab(后来的 DeepSeek),方向正是 RL-Infra。同时还有英伟达(RL System)、FAIR(流程原因被拒)、Google、AutoML 的 offer。

选择 OpenAI 的核心原因:

  • OpenAI 和 DeepMind 是当时 RL 领域最好的两个 research lab
  • 想体验最前沿的 research 到底是怎么做的——“不是像学校里面几个 PhD 手搓一个东西”
  • John Schulman 认可他的 GitHub(开源项目),认为”有良好工程能力的人对任何项目都有益”

核心贡献

在 OpenAI 内部搭建了整个 post-training 的 RL (RLE) infra,所有模型发布都用这套 infra 训练 RLHF 模型。他自己将其定位为”卖铲子最面向客户的那一位”——RL 是整个 infra 的最顶端,生态位高。

个人职业策略: 最大化在 OpenAI Blog 上出现名字的次数。做法是选择 infra 而非单个 research——infra 被所有人使用,可以 scale up;单个 research 不能。

核心信念

1. 信息差应该被打破

  • 清华期间开源所有作业和上古材料(无版权问题的)
  • 开发天授、tuixue.online 全部免费开源
  • 动力:“不想让后人重蹈覆辙,疲于奔命”
  • 认为代码工具应该是一种慈善

2. 成功 = 记得你名字的人数

高中时突然冒出的想法:“如果人生是一场游戏,结算分数是记得你名字的人数。”

  • 不是 fame(名声可能有负面),而是做对大家有意义的事
  • GitHub star、tuixue 点击量、model release 列表上的名字——都是这个 metric 的具体化
  • 只对自己这样要求,不对外施加这个标准

3. 投资未来

从初二自学高中数学开始,就意识到的底层逻辑:

  • “与其浪费时间刷题,不如学对未来有用的东西”
  • 目标是让十年后的自己有资源、有能力做想做的事
  • 现在的重心:提前退休,有足够资本后去找真正想做的事

4. 确定性世界观

相信世界是确定论的——人是没有自由意志的,一切在宇宙大爆炸时就已注定。

  • 尝试证伪但失败,虽然情感上不愿接受
  • 应对策略:忘掉这一切,假装不知道,去体验当前的经历
  • 认为时间是高维的、非线性的——可能是未来的自己在帮助过去的自己

5. AGI 之后呢?

  • 曾以为自己想通了想要什么,现在又想不通了
  • “这个问题值得一生去思考”——即使是站在 AI 最前沿的人也是如此
  • 对 infra 工作的热情在”看到头了”之后开始消退

关键语录

  • “如果你想进工业界,那么读 PhD 就是浪费生命。”
  • “每家的 infra 都有不同程度的 bug,谁修的 bug 越多,谁的模型性能就越好。”
  • “教一个 researcher 如何做好 engineering 要远比教一个 engineer 如何做好 research 来得难。”
  • “idea 非常便宜,你要做的是单位时间内能验证多少有效的 idea。”
  • “技术不重要,重要的是抓住需求。”
  • “最好的方式就是忘掉这一切,假装你不知道这个事,然后去体验当前的一些经历。“

参考资料

  • 来源:4