Nathan Lambert

创建时间： 2026-05-03 来源： [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关： Sebastian-Raschka，Lex-Fridman，RLVR-and-Reasoning，US-China-AI-Competition，Open-Weight-Models-Geopolitics

身份

Allen Institute for AI（AI2）post-training lead，机器学习研究者、工程师、教育者、写作者、播客主理人。RLHF 领域权威——写了 RLHF 的权威著作（可预订，有完整数字预印本）。RLVR 术语的命名者之一（来自 2023 年的工作）。

Atom Project（American Truly Open Models）

2025 年 7 月发起。核心论点：

开放模型是 AI 研究的引擎——研究者从开放模型起步，因此掌控开放模型 = 掌控研究生态
美国应在开放模型领域领先——否则最好的研究将发生在中国模型之上，价值被中国公司攫取
美国在 AI 上的投入远超中国，但训练一个比闭源前沿领先半代的开放模型仅需 ~$1 亿——对这些公司来说微不足道

中国开放模型的威胁

2025 年 7 月：4-5 个 DeepSeek 级别的中国开放模型，美国为零
中国公司意识到美国企业因安全顾虑不会购买中国 API，因此战略性地发布开放权重以抢占美国市场份额
中国政府看到这种国际影响力后，有激励继续支持开放模型

政策成果

AI2 获得 NSF $1 亿资助（4 年）——有史以来最大的 CS 类 NSF 拨款
NVIDIA 的 Jensen Huang 公开呼吁开放模型的紧迫性
Reflection AI 的 $20 亿融资明确用于构建美国开放模型
白宫 AI Action Plan 包含”鼓励开源和开放网络 AI”专节

对安全限制论的反驳

禁止开放模型需要美国建立自己的”长城防火墙”——已知不可行
训练模型的 $1-1 亿成本对全世界太多人可及——你无法阻止
更好的做法：美国自己构建最好的开放模型

核心技术观点

三轴扩展

预训练扩展、RL 扩展、推理时间扩展——三个轴都在工作
低垂果实（尤其 RLVR 和推理扩展）已被摘得大部分
RLHF 没有 scaling law——经典论文是”reward model over-optimization”；RLVR 有——log 算力 → 线性性能提升

RLVR 的机制

模型生成答案 → 评分正确性 → 正确率作为 RL 奖励
GRPO：奖励基于单个回答相对于同一问题其他回答的好坏——如果所有回答都对了，没有信号
因此前沿模型不断推入更难的领域（科学、更复杂的软件问题）
RL 计算量正在接近预训练——但硬件性质不同：pre-training 是 compute-bound，RL 是 memory-bound

RLVR vs RLHF

RLHF 是”最后的润色”——调风格、格式、语气
RLVR 是”引擎”——通过试错学习解锁深度问题解决能力
下一步（RLVR 2.0）：Process Reward Models（PRM）和 value functions——不仅评价最终答案，还评价中间推理步骤
Value functions 在 RL 历史中根基很深，但在语言模型推理时代尚未被证明有效

关于 AGI 时间线

AGI 的实用定义：能替代远程工作者的 AI——接受信息、解决数字任务
偏向”锯齿智能”论：模型在某些任务上超人，在另一些任务上很弱——这种格局将持续
软件自动化：低年（几年内）大量实现；AI 研究自动化：更长
不认为 AGI/ASI 阈值的划分特别有用

关于 AI 经济影响

目前尚未看到 AI 对 GDP 的明显拉动
但”让全人类知识变得可及”这个安静的力量可能才是真正的巨大影响
最大的经济价值可能来自领域专化模型（金融、法律、药物发现），而非通用 ChatGPT

关于职业与文化

教授平均比前沿实验室研究员更快乐——与学生合作、有使命感
SF AI 泡泡既有生产力型也有投机型——担心从建设型泡沫滑向金融型泡沫
996 文化在 AI 公司蔓延——Apple 工程师有”挽救婚姻”暗号

关于未来

100 年后看回来：定义性突破将是计算的规模化，而非某个具体算法
NVIDIA 的护城河不是芯片本身，而是 CUDA 生态——20 年积累
互联网可能被遗忘（融入通信网络），但计算的规模化会被记住

与 Sebastian Raschka 的互补关系

Nathan 偏 post-training / RL / 政策 / 大规模训练系统；Sebastian 偏架构 / 教育 / 从零构建。两人在播客中形成”系统 vs 个体”的互补视角。

参考资料

来源：Lex Fridman Podcast #490
书籍：RLHF 权威著作（可预订）
Atom Project: americantrulyopenmodels.org
Substack、podcast、X（Twitter）

Notes Wiki

Explorer

Nathan-Lambert