Scaling Laws 三轴框架

创建时间： 2026-05-03 来源： [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关： RLVR-and-Reasoning，Post-Training-Era，State-of-AI-2026，Sebastian-Raschka，Nathan-Lambert，NVIDIA-Strategy，Dario-Amodei，Mechanistic-Interpretability

核心概念

Scaling law 本身是幂律关系：X 轴是算力和数据的组合，Y 轴是 held-out 预测精度。这个技术定义从预训练时代延续至今。

2025-2026 年，AI 的能力提升沿三条轴同时发生：

第一轴：预训练扩展

内容：模型大小 + 数据量

从 GPT-2 到 GPT-4 级别：~1 万亿参数
传闻：随着训练效率提升，模型实际在变小——因为服务成本与参数成正比
预训练成本：DeepSeek ~ $500 万（云市场价），实际含工程问题约$ 200 万
服务成本远超训练成本——数亿用户 → 数十亿美元的推理算力
预训练 run 通常不超过一个月——失败的机会成本太大（GPT-4 是 ~3 个月的”YOLO run”）

状态

没死，但性价比下降
Nathan：“人们口头说 pre-training 已死，但实际行为并非如此”
Sebastian：“如果做更多 pre-training，你会得到更好的 base model，但目前有更划算的能力提升方式”
2026 年大型 Blackwell 集群上线（2022-23 年签约的合同）→ 更多算力可用于训练

关键权衡

预训练是固定成本——训练完模型永久拥有这个基础能力
推理扩展是每查询成本——越用越贵
如果模型半年就换代，花 $1 亿训练可能不值得

第二轴：RL 扩展

内容：通过试错学习（RLVR）训练模型

典型设置：actor GPU（生成 completion）+ learner GPU（梯度更新）
可以用分布式、异构计算——actor 可以在世界各地
RLVR 有清晰的 scaling law：log(训练算力) → 线性(性能提升)
RLHF 没有 scaling law——回报递减

关键突破

OpenAI o1：第一个展示 RL scaling plot 的推理模型
DeepSeek R1：规模化突破——证明可以大规模训练
模型自然学会：分步推理、自我纠正、工具使用、CLI 操作

计算特性

Memory-bound（与 pre-training 的 compute-bound 不同）
长序列生成 → attention 内存需求二次增长
Wall-clock 时间上接近 pre-training，但 GPU 使用方式不同

第三轴：推理时间扩展

内容：让模型在回答前”思考”更久

由 OpenAI o1 推广——生成隐藏推理 token
阶跃函数式的能力提升——改变模型能做什么，而非只是做得更好
赋予了工具使用和软件工程的巨大能力提升

用户体验

以前：立刻得到第一个 token
现在：模型可能思考数秒、数分钟甚至数小时
Nathan 只使用 thinking 模式——“推理时间扩展只是让模型边际上更聪明，我会永远选择这一边”

经济学

随用户量增加，推理成本极高
如何向 1 亿用户服务一个思考一小时的模型？——系统工程难题
GPT-5 Pro 的一个查询可能花一小时

三轴的协同与权衡

理想情况

无限算力 → 三个轴全部最大化
预训练提供更好的”底座”
RL 解锁更多技能
推理扩展在部署时榨取极限性能

现实约束

预训练变得极其昂贵
RL 的低垂果实（RLVR 1.0）大部分已被摘取
推理扩展的下一跳不确定——“没有人知道下一个阶跃函数什么时候来”

Nathan 的判断

三个轴都”仍然有效”——但 2025 年的低垂果实主要在 RLVR 和推理扩展
没人知道下一个”解锁”类似 RLVR 的突破是什么
不断学习（continual learning）是被广泛讨论的方向之一

架构层面的不变性

尽管三轴在推动进步，底层架构惊人地稳定：

GPT-2 (2019)	GPT-OSS (2025)
Multi-head attention	Group Query Attention（微调）
Layer Norm	RMS Norm（微调）
单一 FFN 层	Mixture of Experts（扩展）
ReLU	SwiGLU（微调）

Sebastian：“你可以从 GPT-2 模型出发，加上不同的微调组件，就得到 Gemma 3 或其他现代模型。这是一种谱系关系。”

系统层面变化更大：FP8/FP4 训练 → tokens/sec/GPU 从 10K 到 13K → 更快的实验迭代。

Dario Amodei 对 Scaling Law 极限的判断

来自 Anthropic CEO Dario-Amodei 的补充视角（2024-11 访谈）：

核心机制

Scaling Law 的本质是按合适比例同时扩展三个要素——网络规模、训练时间、数据量——如同化学反应中的成分比例。只有按比例扩展所有成分，模型性能才会持续提升。

极限在哪

目前不清楚 — Amodei 认为人类能理解复杂模式，继续扩展至少可达人类水平
在生物学等复杂领域，AI 甚至可能超越人类
但在涉及人类社会和文化的问题上可能存在瓶颈——涉及情感、价值观等 AI 难以完全理解的复杂因素

两个主要瓶颈

数据质量与数量 — 互联网数据质量参差不齐，AI 生成内容泛滥造成污染；合成数据可能解决数量问题，但真实性和有效性存疑
计算资源 — 大模型训练成本已极高，随着规模扩大成本呈指数增长；需要更高效的算法和架构突破，但这条路充满不确定性

参考资料

来源：Lex Fridman Podcast #490
相关论文：Chinchilla scaling laws、OpenAI o1、DeepSeek R1、GRPO、ScaleRL
相关概念：RLVR-and-Reasoning（第二轴详解）

Notes Wiki

Explorer

Scaling-Laws-Three-Axes