RLVR 与推理

创建时间: 2026-05-03 来源: [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关: Scaling-Laws-Three-AxesPost-Training-EraRL-Infra-for-LLMNathan-LambertSebastian-RaschkaState-of-AI-2026


RLVR 是什么

Reinforcement Learning with Verifiable Rewards(基于可验证奖励的强化学习)。让语言模型生成答案,然后根据客观正确性评分——正确率作为 RL 奖励信号。与 RLHF(基于人类偏好的主观评分)的核心区别:奖励信号是客观的、可验证的

Nathan Lambert 是 RLVR 术语的命名者之一(2023 年,来自他们团队的工作)。DeepSeek 是第一个规模化突破的实践者(DeepSeek R1)。

工作原理

问题(数学/代码) → 模型生成多个回答 → 评分正确性 → 正确率作为奖励 → RL 更新
  • 经典 RL 框架:agent 在环境中行动,环境返回状态和奖励
  • 语言模型的”行动”= 生成 completion
  • “环境”= 可验证的任务(数学题、代码测试)
  • 奖励 = 答案是否正确
  • GRPO(Group Relative Policy Optimization):奖励基于单个回答相对于同一问题其他回答的好坏——如果所有回答都对了,没有梯度信号

为什么重要

有 scaling law

  • RLHF 没有:经典论文是”scaling laws for reward model over-optimization”——增加 RLHF 算力回报递减
  • RLVR 有:log 增加训练算力 → 线性增加评估性能
  • OpenAI o1 第一个展示这个 scaling plot;DeepSeek 也复现了

解锁工具使用和编码能力

  • 模型在训练中很快学会了:尝试工具 → 看结果 → 尝试另一个 API → 看结果 → 解决问题
  • 赋予模型 CLI 命令执行、Git 操作、信息搜索等能力
  • “一年前坐在这些椅子上,我们没有真正想过模型能做到这些”

启用推理时间扩展

  • RLVR 训练 ↔ 推理时间扩展形成”完美风暴”
  • 模型生成更多隐藏推理 token → 更准确的答案
  • 训练越久,回答越长(token 数增加)——变贵但变准

”Aha Moment” 现象

DeepSeek R1 论文中观察到:模型自行识别错误并自我纠正(“啊,我做错了,让我重新试试”)。

争议

  • 乐观解读:RL 让模型学会了”像数学家一样逐步推导”——step-by-step 解释帮助模型提高准确性
  • 怀疑解读:预训练中已见过大量”人类讲解过程”的数据;RLVR 只是放大这些已有行为
  • Sebastian 的实验证据:Gemma 3 base 在 Math500 上 15% → 50%(仅 50 步 RLVR)——不可能在 50 步内学到新数学知识,一定是”解锁”已有知识
  • Nathan 的反驳:Qwen 的数据污染问题——base model 在改动数字后仍输出极高精度答案(暗示训练集泄露)

RLHF 仍然重要的角色

  • “最后的润色”——调整风格、格式、语气
  • 让模型更有用:markdown 列表(虽然有些人讨厌但确实高效)、组织方式
  • 不同人偏好不同风格——RLHF 在”平均偏好”上工作
  • 某种程度上也能提升数学能力(因为格式/组织帮助解题)

下一步:RLVR 2.0

Process Reward Models(PRM)

  • 当前 RLVR 只评价最终答案对不对
  • PRM 对中间推理步骤也评分——“你的解释本身有多正确?”
  • Google 等已有相关论文

Value Functions

  • 给模型生成的每个 token 赋值
  • 深度 RL 的根基概念——但语言模型推理时代尚未被证明有效
  • Nathan:“人们很乐观,但目前证明很少,而且有反面案例”

更难的领域

  • 当前:数学和代码是最成熟的可验证领域
  • 扩展方向:科学领域、Rubrics(用 LLM 做 judge,根据评分标准打分)
  • 前沿实验室正在寻找更难的问题——简单问题被 100% 解决后没有梯度信号

RL 计算量的性质

  • 与 pre-training 不同:pre-training 是 compute-bound(矩阵乘法),RL 是 memory-bound(生成长序列,attention 的内存需求二次增长)
  • Grok 4 报告:pre-training 和 post-training 使用了”相似量”的算力
  • GPU 小时数上,RL 正在接近 pre-training——但使用的 GPU 数量更少、时间更长
  • AI2 的 RL run:30B 参数模型 → 5 天(2024 年底)→ 又追加 3.5 周(明显改善)

参考资料

  • 来源:Lex Fridman Podcast #490
  • 相关论文:DeepSeek R1、OpenAI o1、GRPO、ScaleRL(Meta 实习项目)
  • Nathan 的术语命名来自 2023 年 RLVR 论文