Scaling Laws 三轴框架
创建时间: 2026-05-03
来源: [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]]
相关: RLVR-and-Reasoning,Post-Training-Era,State-of-AI-2026,Sebastian-Raschka,Nathan-Lambert,NVIDIA-Strategy,Dario-Amodei,Mechanistic-Interpretability
核心概念
Scaling law 本身是幂律关系:X 轴是算力和数据的组合,Y 轴是 held-out 预测精度。这个技术定义从预训练时代延续至今。
2025-2026 年,AI 的能力提升沿三条轴同时发生:
第一轴:预训练扩展
内容:模型大小 + 数据量
- 从 GPT-2 到 GPT-4 级别:~1 万亿参数
- 传闻:随着训练效率提升,模型实际在变小——因为服务成本与参数成正比
- 预训练成本:DeepSeek ~200 万
- 服务成本远超训练成本——数亿用户 → 数十亿美元的推理算力
- 预训练 run 通常不超过一个月——失败的机会成本太大(GPT-4 是 ~3 个月的”YOLO run”)
状态
- 没死,但性价比下降
- Nathan:“人们口头说 pre-training 已死,但实际行为并非如此”
- Sebastian:“如果做更多 pre-training,你会得到更好的 base model,但目前有更划算的能力提升方式”
- 2026 年大型 Blackwell 集群上线(2022-23 年签约的合同)→ 更多算力可用于训练
关键权衡
- 预训练是固定成本——训练完模型永久拥有这个基础能力
- 推理扩展是每查询成本——越用越贵
- 如果模型半年就换代,花 $1 亿训练可能不值得
第二轴:RL 扩展
内容:通过试错学习(RLVR)训练模型
- 典型设置:actor GPU(生成 completion)+ learner GPU(梯度更新)
- 可以用分布式、异构计算——actor 可以在世界各地
- RLVR 有清晰的 scaling law:log(训练算力) → 线性(性能提升)
- RLHF 没有 scaling law——回报递减
关键突破
- OpenAI o1:第一个展示 RL scaling plot 的推理模型
- DeepSeek R1:规模化突破——证明可以大规模训练
- 模型自然学会:分步推理、自我纠正、工具使用、CLI 操作
计算特性
- Memory-bound(与 pre-training 的 compute-bound 不同)
- 长序列生成 → attention 内存需求二次增长
- Wall-clock 时间上接近 pre-training,但 GPU 使用方式不同
第三轴:推理时间扩展
内容:让模型在回答前”思考”更久
- 由 OpenAI o1 推广——生成隐藏推理 token
- 阶跃函数式的能力提升——改变模型能做什么,而非只是做得更好
- 赋予了工具使用和软件工程的巨大能力提升
用户体验
- 以前:立刻得到第一个 token
- 现在:模型可能思考数秒、数分钟甚至数小时
- Nathan 只使用 thinking 模式——“推理时间扩展只是让模型边际上更聪明,我会永远选择这一边”
经济学
- 随用户量增加,推理成本极高
- 如何向 1 亿用户服务一个思考一小时的模型?——系统工程难题
- GPT-5 Pro 的一个查询可能花一小时
三轴的协同与权衡
理想情况
- 无限算力 → 三个轴全部最大化
- 预训练提供更好的”底座”
- RL 解锁更多技能
- 推理扩展在部署时榨取极限性能
现实约束
- 预训练变得极其昂贵
- RL 的低垂果实(RLVR 1.0)大部分已被摘取
- 推理扩展的下一跳不确定——“没有人知道下一个阶跃函数什么时候来”
Nathan 的判断
- 三个轴都”仍然有效”——但 2025 年的低垂果实主要在 RLVR 和推理扩展
- 没人知道下一个”解锁”类似 RLVR 的突破是什么
- 不断学习(continual learning)是被广泛讨论的方向之一
架构层面的不变性
尽管三轴在推动进步,底层架构惊人地稳定:
| GPT-2 (2019) | GPT-OSS (2025) |
|---|---|
| Multi-head attention | Group Query Attention(微调) |
| Layer Norm | RMS Norm(微调) |
| 单一 FFN 层 | Mixture of Experts(扩展) |
| ReLU | SwiGLU(微调) |
Sebastian:“你可以从 GPT-2 模型出发,加上不同的微调组件,就得到 Gemma 3 或其他现代模型。这是一种谱系关系。”
系统层面变化更大:FP8/FP4 训练 → tokens/sec/GPU 从 10K 到 13K → 更快的实验迭代。
Dario Amodei 对 Scaling Law 极限的判断
来自 Anthropic CEO Dario-Amodei 的补充视角(2024-11 访谈):
核心机制
Scaling Law 的本质是按合适比例同时扩展三个要素——网络规模、训练时间、数据量——如同化学反应中的成分比例。只有按比例扩展所有成分,模型性能才会持续提升。
极限在哪
- 目前不清楚 — Amodei 认为人类能理解复杂模式,继续扩展至少可达人类水平
- 在生物学等复杂领域,AI 甚至可能超越人类
- 但在涉及人类社会和文化的问题上可能存在瓶颈——涉及情感、价值观等 AI 难以完全理解的复杂因素
两个主要瓶颈
- 数据质量与数量 — 互联网数据质量参差不齐,AI 生成内容泛滥造成污染;合成数据可能解决数量问题,但真实性和有效性存疑
- 计算资源 — 大模型训练成本已极高,随着规模扩大成本呈指数增长;需要更高效的算法和架构突破,但这条路充满不确定性
参考资料
- 来源:Lex Fridman Podcast #490
- 相关论文:Chinchilla scaling laws、OpenAI o1、DeepSeek R1、GRPO、ScaleRL
- 相关概念:RLVR-and-Reasoning(第二轴详解)