后训练时代
创建时间: 2026-04-27
来源: [[sources/138. 对罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权]]
相关: Agent-Paradigm-Shift,MiMo-V2,OpenClaw,RLVR-and-Reasoning,Scaling-Laws-Three-Axes,State-of-AI-2026,Extreme-Co-Design
核心变化:算力天平翻转
在 Chatbot 时代,预训练与后训练的算力投入比例可能是 3:1 甚至 5:1——预训练占据绝对主导。
2026 年 Agent 时代,顶尖团队的预训练与后训练算力投入已趋向 1:1。这不是渐进的调整,而是结构性翻转。
为什么 Agent 范式”很吃后训练”
1. 长程任务的多样性覆盖
Agent 场景需要模型在极长上下文窗口内稳定执行复杂任务。预训练阶段难以找到真正的 1M 上下文稠密监督数据(几乎只有 Code 数据和书籍)——后训练需要构造长程任务数据并覆盖更广泛的场景。
2. 框架理解与适配
不同 Agent 框架(OpenClaw、Claude Code 等)有不同的编排逻辑和 Context 结构。模型需要通过后训练理解框架本身的运作方式,在不同框架上都保持稳定的表现。
3. 另类信息的注入
互联网公开数据不包含组织内部的执行规范、业务逻辑、行业经验。这些”另类信息”需要通过 Skills 和后训练注入模型。Skills 本质上是后训练数据的一种新形态。
4. 环境还原与 Reward 设计
在 Agent 场景中,还原用户使用时的真实环境是训练的关键——有了环境才能设计精准的 Reward 规则。这是后训练阶段最具技术难度的环节。
GPU 分配:3:1:1 法则
罗福莉提出的理想 GPU 分配比例:
研究 : 预训练 : 后训练 = 3 : 1 : 1
- 研究(3 份):结构探索、算法实验、并行验证多个 idea——Agent 让研究速度大幅提升后,GPU 反而变成瓶颈
- 预训练(1 份):训基座模型本身
- 后训练(1 份):SFT、RL、场景适配、框架理解
总研究 GPU 需要比正式训练的 GPU 总量还多——“你要额外留更多的卡来做研究。“
后训练周期拉长的结构性影响
后训练从”一个月做完”变为”做半年到一年”,这改变了模型架构设计的逻辑:
- Chatbot 时代:预训练阶段就可以针对特定推理卡和场景做精准架构设计(MLA 就是这样诞生的)
- Agent 时代:当后训练持续半年到一年,预训练阶段假定的场景和推理条件可能全部失效——“可能以前大家觉得 128K 就够了,过几个月大家觉得需要 10 兆上下文”
这反而使得更简洁、留有冗余度的架构(如 Hybrid Attention)比精细优化到极致的架构(如 MLA)更有优势——简洁结构给后训练留出了更大的发挥空间。
长程任务与 Code 的泛化价值
软件开发是最典型的长程任务。把 Code 做好了,模型通用的长程建模特质就已经好了——Agent 框架本身的设计(Plan、压缩、回顾)也是为软件开发准备的,但这些框架设计具有泛化性,能迁移到金融分析等更复杂的场景。
代码数据的关键价值:
- 文件之间的强关联性 → 长上下文依赖 → 天然的 128K-1M 上下文训练数据
- 书籍也有长上下文,但”信号太发散”
预训练基座的前置准备
在意识到 Agent 重要性之前,MiMo 团队已经在预训练阶段为长上下文能力做好了准备——Code 数据的密集训练使基座天然具备长上下文建模能力。后训练的作用是”激活”和”稳定化”这种潜力。
当前顶尖模型(Claude Opus 4.6、Sonnet)在 1M 上下文窗口的稳定性上领先,其他模型虽然声称支持长上下文但实际不可用。差距主要在后训练阶段。
引用
- “预训练与后训练的算力投入比例正趋向 1:1,后训练阶段决定了模型的最终上限。”
- “做预训练的人去做后训练有非常大的优势——他天然更在乎多样性。”
- “怎么还原当时使用这个事情的环境?因为有环境,你才能更好地进行更长程的交互。“