Scaling Laws 三轴框架

创建时间: 2026-05-03 来源: [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关: RLVR-and-ReasoningPost-Training-EraState-of-AI-2026Sebastian-RaschkaNathan-LambertNVIDIA-StrategyDario-AmodeiMechanistic-Interpretability


核心概念

Scaling law 本身是幂律关系:X 轴是算力和数据的组合,Y 轴是 held-out 预测精度。这个技术定义从预训练时代延续至今。

2025-2026 年,AI 的能力提升沿三条轴同时发生:

第一轴:预训练扩展

内容:模型大小 + 数据量

  • 从 GPT-2 到 GPT-4 级别:~1 万亿参数
  • 传闻:随着训练效率提升,模型实际在变小——因为服务成本与参数成正比
  • 预训练成本:DeepSeek ~200 万
  • 服务成本远超训练成本——数亿用户 → 数十亿美元的推理算力
  • 预训练 run 通常不超过一个月——失败的机会成本太大(GPT-4 是 ~3 个月的”YOLO run”)

状态

  • 没死,但性价比下降
  • Nathan:“人们口头说 pre-training 已死,但实际行为并非如此”
  • Sebastian:“如果做更多 pre-training,你会得到更好的 base model,但目前有更划算的能力提升方式”
  • 2026 年大型 Blackwell 集群上线(2022-23 年签约的合同)→ 更多算力可用于训练

关键权衡

  • 预训练是固定成本——训练完模型永久拥有这个基础能力
  • 推理扩展是每查询成本——越用越贵
  • 如果模型半年就换代,花 $1 亿训练可能不值得

第二轴:RL 扩展

内容:通过试错学习(RLVR)训练模型

  • 典型设置:actor GPU(生成 completion)+ learner GPU(梯度更新)
  • 可以用分布式、异构计算——actor 可以在世界各地
  • RLVR 有清晰的 scaling law:log(训练算力) → 线性(性能提升)
  • RLHF 没有 scaling law——回报递减

关键突破

  • OpenAI o1:第一个展示 RL scaling plot 的推理模型
  • DeepSeek R1:规模化突破——证明可以大规模训练
  • 模型自然学会:分步推理、自我纠正、工具使用、CLI 操作

计算特性

  • Memory-bound(与 pre-training 的 compute-bound 不同)
  • 长序列生成 → attention 内存需求二次增长
  • Wall-clock 时间上接近 pre-training,但 GPU 使用方式不同

第三轴:推理时间扩展

内容:让模型在回答前”思考”更久

  • 由 OpenAI o1 推广——生成隐藏推理 token
  • 阶跃函数式的能力提升——改变模型能做什么,而非只是做得更好
  • 赋予了工具使用和软件工程的巨大能力提升

用户体验

  • 以前:立刻得到第一个 token
  • 现在:模型可能思考数秒、数分钟甚至数小时
  • Nathan 只使用 thinking 模式——“推理时间扩展只是让模型边际上更聪明,我会永远选择这一边”

经济学

  • 随用户量增加,推理成本极高
  • 如何向 1 亿用户服务一个思考一小时的模型?——系统工程难题
  • GPT-5 Pro 的一个查询可能花一小时

三轴的协同与权衡

理想情况

  • 无限算力 → 三个轴全部最大化
  • 预训练提供更好的”底座”
  • RL 解锁更多技能
  • 推理扩展在部署时榨取极限性能

现实约束

  • 预训练变得极其昂贵
  • RL 的低垂果实(RLVR 1.0)大部分已被摘取
  • 推理扩展的下一跳不确定——“没有人知道下一个阶跃函数什么时候来”

Nathan 的判断

  • 三个轴都”仍然有效”——但 2025 年的低垂果实主要在 RLVR 和推理扩展
  • 没人知道下一个”解锁”类似 RLVR 的突破是什么
  • 不断学习(continual learning)是被广泛讨论的方向之一

架构层面的不变性

尽管三轴在推动进步,底层架构惊人地稳定:

GPT-2 (2019)GPT-OSS (2025)
Multi-head attentionGroup Query Attention(微调)
Layer NormRMS Norm(微调)
单一 FFN 层Mixture of Experts(扩展)
ReLUSwiGLU(微调)

Sebastian:“你可以从 GPT-2 模型出发,加上不同的微调组件,就得到 Gemma 3 或其他现代模型。这是一种谱系关系。”

系统层面变化更大:FP8/FP4 训练 → tokens/sec/GPU 从 10K 到 13K → 更快的实验迭代。

Dario Amodei 对 Scaling Law 极限的判断

来自 Anthropic CEO Dario-Amodei 的补充视角(2024-11 访谈):

核心机制

Scaling Law 的本质是按合适比例同时扩展三个要素——网络规模、训练时间、数据量——如同化学反应中的成分比例。只有按比例扩展所有成分,模型性能才会持续提升。

极限在哪

  • 目前不清楚 — Amodei 认为人类能理解复杂模式,继续扩展至少可达人类水平
  • 在生物学等复杂领域,AI 甚至可能超越人类
  • 但在涉及人类社会和文化的问题上可能存在瓶颈——涉及情感、价值观等 AI 难以完全理解的复杂因素

两个主要瓶颈

  1. 数据质量与数量 — 互联网数据质量参差不齐,AI 生成内容泛滥造成污染;合成数据可能解决数量问题,但真实性和有效性存疑
  2. 计算资源 — 大模型训练成本已极高,随着规模扩大成本呈指数增长;需要更高效的算法和架构突破,但这条路充满不确定性

参考资料

  • 来源:Lex Fridman Podcast #490
  • 相关论文:Chinchilla scaling laws、OpenAI o1、DeepSeek R1、GRPO、ScaleRL
  • 相关概念:RLVR-and-Reasoning(第二轴详解)