Nathan Lambert
创建时间: 2026-05-03
来源: [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]]
相关: Sebastian-Raschka,Lex-Fridman,RLVR-and-Reasoning,US-China-AI-Competition,Open-Weight-Models-Geopolitics
身份
Allen Institute for AI(AI2)post-training lead,机器学习研究者、工程师、教育者、写作者、播客主理人。RLHF 领域权威——写了 RLHF 的权威著作(可预订,有完整数字预印本)。RLVR 术语的命名者之一(来自 2023 年的工作)。
Atom Project(American Truly Open Models)
2025 年 7 月发起。核心论点:
- 开放模型是 AI 研究的引擎——研究者从开放模型起步,因此掌控开放模型 = 掌控研究生态
- 美国应在开放模型领域领先——否则最好的研究将发生在中国模型之上,价值被中国公司攫取
- 美国在 AI 上的投入远超中国,但训练一个比闭源前沿领先半代的开放模型仅需 ~$1 亿——对这些公司来说微不足道
中国开放模型的威胁
- 2025 年 7 月:4-5 个 DeepSeek 级别的中国开放模型,美国为零
- 中国公司意识到美国企业因安全顾虑不会购买中国 API,因此战略性地发布开放权重以抢占美国市场份额
- 中国政府看到这种国际影响力后,有激励继续支持开放模型
政策成果
- AI2 获得 NSF $1 亿资助(4 年)——有史以来最大的 CS 类 NSF 拨款
- NVIDIA 的 Jensen Huang 公开呼吁开放模型的紧迫性
- Reflection AI 的 $20 亿融资明确用于构建美国开放模型
- 白宫 AI Action Plan 包含”鼓励开源和开放网络 AI”专节
对安全限制论的反驳
- 禁止开放模型需要美国建立自己的”长城防火墙”——已知不可行
- 训练模型的 $1-1 亿成本对全世界太多人可及——你无法阻止
- 更好的做法:美国自己构建最好的开放模型
核心技术观点
三轴扩展
- 预训练扩展、RL 扩展、推理时间扩展——三个轴都在工作
- 低垂果实(尤其 RLVR 和推理扩展)已被摘得大部分
- RLHF 没有 scaling law——经典论文是”reward model over-optimization”;RLVR 有——log 算力 → 线性性能提升
RLVR 的机制
- 模型生成答案 → 评分正确性 → 正确率作为 RL 奖励
- GRPO:奖励基于单个回答相对于同一问题其他回答的好坏——如果所有回答都对了,没有信号
- 因此前沿模型不断推入更难的领域(科学、更复杂的软件问题)
- RL 计算量正在接近预训练——但硬件性质不同:pre-training 是 compute-bound,RL 是 memory-bound
RLVR vs RLHF
- RLHF 是”最后的润色”——调风格、格式、语气
- RLVR 是”引擎”——通过试错学习解锁深度问题解决能力
- 下一步(RLVR 2.0):Process Reward Models(PRM)和 value functions——不仅评价最终答案,还评价中间推理步骤
- Value functions 在 RL 历史中根基很深,但在语言模型推理时代尚未被证明有效
关于 AGI 时间线
- AGI 的实用定义:能替代远程工作者的 AI——接受信息、解决数字任务
- 偏向”锯齿智能”论:模型在某些任务上超人,在另一些任务上很弱——这种格局将持续
- 软件自动化:低年(几年内)大量实现;AI 研究自动化:更长
- 不认为 AGI/ASI 阈值的划分特别有用
关于 AI 经济影响
- 目前尚未看到 AI 对 GDP 的明显拉动
- 但”让全人类知识变得可及”这个安静的力量可能才是真正的巨大影响
- 最大的经济价值可能来自领域专化模型(金融、法律、药物发现),而非通用 ChatGPT
关于职业与文化
- 教授平均比前沿实验室研究员更快乐——与学生合作、有使命感
- SF AI 泡泡既有生产力型也有投机型——担心从建设型泡沫滑向金融型泡沫
- 996 文化在 AI 公司蔓延——Apple 工程师有”挽救婚姻”暗号
关于未来
- 100 年后看回来:定义性突破将是计算的规模化,而非某个具体算法
- NVIDIA 的护城河不是芯片本身,而是 CUDA 生态——20 年积累
- 互联网可能被遗忘(融入通信网络),但计算的规模化会被记住
与 Sebastian Raschka 的互补关系
Nathan 偏 post-training / RL / 政策 / 大规模训练系统;Sebastian 偏架构 / 教育 / 从零构建。两人在播客中形成”系统 vs 个体”的互补视角。
参考资料
- 来源:Lex Fridman Podcast #490
- 书籍:RLHF 权威著作(可预订)
- Atom Project: americantrulyopenmodels.org
- Substack、podcast、X(Twitter)