后训练时代

创建时间: 2026-04-27 来源: [[sources/138. 对罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权]] 相关: Agent-Paradigm-ShiftMiMo-V2OpenClawRLVR-and-ReasoningScaling-Laws-Three-AxesState-of-AI-2026Extreme-Co-Design


核心变化:算力天平翻转

在 Chatbot 时代,预训练与后训练的算力投入比例可能是 3:1 甚至 5:1——预训练占据绝对主导。

2026 年 Agent 时代,顶尖团队的预训练与后训练算力投入已趋向 1:1。这不是渐进的调整,而是结构性翻转

为什么 Agent 范式”很吃后训练”

1. 长程任务的多样性覆盖

Agent 场景需要模型在极长上下文窗口内稳定执行复杂任务。预训练阶段难以找到真正的 1M 上下文稠密监督数据(几乎只有 Code 数据和书籍)——后训练需要构造长程任务数据并覆盖更广泛的场景。

2. 框架理解与适配

不同 Agent 框架(OpenClaw、Claude Code 等)有不同的编排逻辑和 Context 结构。模型需要通过后训练理解框架本身的运作方式,在不同框架上都保持稳定的表现。

3. 另类信息的注入

互联网公开数据不包含组织内部的执行规范、业务逻辑、行业经验。这些”另类信息”需要通过 Skills 和后训练注入模型。Skills 本质上是后训练数据的一种新形态。

4. 环境还原与 Reward 设计

在 Agent 场景中,还原用户使用时的真实环境是训练的关键——有了环境才能设计精准的 Reward 规则。这是后训练阶段最具技术难度的环节。

GPU 分配:3:1:1 法则

罗福莉提出的理想 GPU 分配比例:

研究 : 预训练 : 后训练 = 3 : 1 : 1
  • 研究(3 份):结构探索、算法实验、并行验证多个 idea——Agent 让研究速度大幅提升后,GPU 反而变成瓶颈
  • 预训练(1 份):训基座模型本身
  • 后训练(1 份):SFT、RL、场景适配、框架理解

总研究 GPU 需要比正式训练的 GPU 总量还多——“你要额外留更多的卡来做研究。“

后训练周期拉长的结构性影响

后训练从”一个月做完”变为”做半年到一年”,这改变了模型架构设计的逻辑:

  • Chatbot 时代:预训练阶段就可以针对特定推理卡和场景做精准架构设计(MLA 就是这样诞生的)
  • Agent 时代:当后训练持续半年到一年,预训练阶段假定的场景和推理条件可能全部失效——“可能以前大家觉得 128K 就够了,过几个月大家觉得需要 10 兆上下文”

这反而使得更简洁、留有冗余度的架构(如 Hybrid Attention)比精细优化到极致的架构(如 MLA)更有优势——简洁结构给后训练留出了更大的发挥空间。

长程任务与 Code 的泛化价值

软件开发是最典型的长程任务。把 Code 做好了,模型通用的长程建模特质就已经好了——Agent 框架本身的设计(Plan、压缩、回顾)也是为软件开发准备的,但这些框架设计具有泛化性,能迁移到金融分析等更复杂的场景。

代码数据的关键价值:

  • 文件之间的强关联性 → 长上下文依赖 → 天然的 128K-1M 上下文训练数据
  • 书籍也有长上下文,但”信号太发散”

预训练基座的前置准备

在意识到 Agent 重要性之前,MiMo 团队已经在预训练阶段为长上下文能力做好了准备——Code 数据的密集训练使基座天然具备长上下文建模能力。后训练的作用是”激活”和”稳定化”这种潜力。

当前顶尖模型(Claude Opus 4.6、Sonnet)在 1M 上下文窗口的稳定性上领先,其他模型虽然声称支持长上下文但实际不可用。差距主要在后训练阶段。

引用

  • “预训练与后训练的算力投入比例正趋向 1:1,后训练阶段决定了模型的最终上限。”
  • “做预训练的人去做后训练有非常大的优势——他天然更在乎多样性。”
  • “怎么还原当时使用这个事情的环境?因为有环境,你才能更好地进行更长程的交互。“

参考资料