Nathan Lambert

创建时间: 2026-05-03 来源: [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关: Sebastian-RaschkaLex-FridmanRLVR-and-ReasoningUS-China-AI-CompetitionOpen-Weight-Models-Geopolitics


身份

Allen Institute for AI(AI2)post-training lead,机器学习研究者、工程师、教育者、写作者、播客主理人。RLHF 领域权威——写了 RLHF 的权威著作(可预订,有完整数字预印本)。RLVR 术语的命名者之一(来自 2023 年的工作)。

Atom Project(American Truly Open Models)

2025 年 7 月发起。核心论点:

  1. 开放模型是 AI 研究的引擎——研究者从开放模型起步,因此掌控开放模型 = 掌控研究生态
  2. 美国应在开放模型领域领先——否则最好的研究将发生在中国模型之上,价值被中国公司攫取
  3. 美国在 AI 上的投入远超中国,但训练一个比闭源前沿领先半代的开放模型仅需 ~$1 亿——对这些公司来说微不足道

中国开放模型的威胁

  • 2025 年 7 月:4-5 个 DeepSeek 级别的中国开放模型,美国为零
  • 中国公司意识到美国企业因安全顾虑不会购买中国 API,因此战略性地发布开放权重以抢占美国市场份额
  • 中国政府看到这种国际影响力后,有激励继续支持开放模型

政策成果

  • AI2 获得 NSF $1 亿资助(4 年)——有史以来最大的 CS 类 NSF 拨款
  • NVIDIA 的 Jensen Huang 公开呼吁开放模型的紧迫性
  • Reflection AI 的 $20 亿融资明确用于构建美国开放模型
  • 白宫 AI Action Plan 包含”鼓励开源和开放网络 AI”专节

对安全限制论的反驳

  • 禁止开放模型需要美国建立自己的”长城防火墙”——已知不可行
  • 训练模型的 $1-1 亿成本对全世界太多人可及——你无法阻止
  • 更好的做法:美国自己构建最好的开放模型

核心技术观点

三轴扩展

  • 预训练扩展、RL 扩展、推理时间扩展——三个轴都在工作
  • 低垂果实(尤其 RLVR 和推理扩展)已被摘得大部分
  • RLHF 没有 scaling law——经典论文是”reward model over-optimization”;RLVR 有——log 算力 → 线性性能提升

RLVR 的机制

  • 模型生成答案 → 评分正确性 → 正确率作为 RL 奖励
  • GRPO:奖励基于单个回答相对于同一问题其他回答的好坏——如果所有回答都对了,没有信号
  • 因此前沿模型不断推入更难的领域(科学、更复杂的软件问题)
  • RL 计算量正在接近预训练——但硬件性质不同:pre-training 是 compute-bound,RL 是 memory-bound

RLVR vs RLHF

  • RLHF 是”最后的润色”——调风格、格式、语气
  • RLVR 是”引擎”——通过试错学习解锁深度问题解决能力
  • 下一步(RLVR 2.0):Process Reward Models(PRM)和 value functions——不仅评价最终答案,还评价中间推理步骤
  • Value functions 在 RL 历史中根基很深,但在语言模型推理时代尚未被证明有效

关于 AGI 时间线

  • AGI 的实用定义:能替代远程工作者的 AI——接受信息、解决数字任务
  • 偏向”锯齿智能”论:模型在某些任务上超人,在另一些任务上很弱——这种格局将持续
  • 软件自动化:低年(几年内)大量实现;AI 研究自动化:更长
  • 不认为 AGI/ASI 阈值的划分特别有用

关于 AI 经济影响

  • 目前尚未看到 AI 对 GDP 的明显拉动
  • 但”让全人类知识变得可及”这个安静的力量可能才是真正的巨大影响
  • 最大的经济价值可能来自领域专化模型(金融、法律、药物发现),而非通用 ChatGPT

关于职业与文化

  • 教授平均比前沿实验室研究员更快乐——与学生合作、有使命感
  • SF AI 泡泡既有生产力型也有投机型——担心从建设型泡沫滑向金融型泡沫
  • 996 文化在 AI 公司蔓延——Apple 工程师有”挽救婚姻”暗号

关于未来

  • 100 年后看回来:定义性突破将是计算的规模化,而非某个具体算法
  • NVIDIA 的护城河不是芯片本身,而是 CUDA 生态——20 年积累
  • 互联网可能被遗忘(融入通信网络),但计算的规模化会被记住

与 Sebastian Raschka 的互补关系

Nathan 偏 post-training / RL / 政策 / 大规模训练系统;Sebastian 偏架构 / 教育 / 从零构建。两人在播客中形成”系统 vs 个体”的互补视角。

参考资料

  • 来源:Lex Fridman Podcast #490
  • 书籍:RLHF 权威著作(可预订)
  • Atom Project: americantrulyopenmodels.org
  • Substack、podcast、X(Twitter)