RLVR 与推理
创建时间: 2026-05-03
来源: [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]]
相关: Scaling-Laws-Three-Axes,Post-Training-Era,RL-Infra-for-LLM,Nathan-Lambert,Sebastian-Raschka,State-of-AI-2026
RLVR 是什么
Reinforcement Learning with Verifiable Rewards(基于可验证奖励的强化学习)。让语言模型生成答案,然后根据客观正确性评分——正确率作为 RL 奖励信号。与 RLHF(基于人类偏好的主观评分)的核心区别:奖励信号是客观的、可验证的。
Nathan Lambert 是 RLVR 术语的命名者之一(2023 年,来自他们团队的工作)。DeepSeek 是第一个规模化突破的实践者(DeepSeek R1)。
工作原理
问题(数学/代码) → 模型生成多个回答 → 评分正确性 → 正确率作为奖励 → RL 更新
- 经典 RL 框架:agent 在环境中行动,环境返回状态和奖励
- 语言模型的”行动”= 生成 completion
- “环境”= 可验证的任务(数学题、代码测试)
- 奖励 = 答案是否正确
- GRPO(Group Relative Policy Optimization):奖励基于单个回答相对于同一问题其他回答的好坏——如果所有回答都对了,没有梯度信号
为什么重要
有 scaling law
- RLHF 没有:经典论文是”scaling laws for reward model over-optimization”——增加 RLHF 算力回报递减
- RLVR 有:log 增加训练算力 → 线性增加评估性能
- OpenAI o1 第一个展示这个 scaling plot;DeepSeek 也复现了
解锁工具使用和编码能力
- 模型在训练中很快学会了:尝试工具 → 看结果 → 尝试另一个 API → 看结果 → 解决问题
- 赋予模型 CLI 命令执行、Git 操作、信息搜索等能力
- “一年前坐在这些椅子上,我们没有真正想过模型能做到这些”
启用推理时间扩展
- RLVR 训练 ↔ 推理时间扩展形成”完美风暴”
- 模型生成更多隐藏推理 token → 更准确的答案
- 训练越久,回答越长(token 数增加)——变贵但变准
”Aha Moment” 现象
DeepSeek R1 论文中观察到:模型自行识别错误并自我纠正(“啊,我做错了,让我重新试试”)。
争议
- 乐观解读:RL 让模型学会了”像数学家一样逐步推导”——step-by-step 解释帮助模型提高准确性
- 怀疑解读:预训练中已见过大量”人类讲解过程”的数据;RLVR 只是放大这些已有行为
- Sebastian 的实验证据:Gemma 3 base 在 Math500 上 15% → 50%(仅 50 步 RLVR)——不可能在 50 步内学到新数学知识,一定是”解锁”已有知识
- Nathan 的反驳:Qwen 的数据污染问题——base model 在改动数字后仍输出极高精度答案(暗示训练集泄露)
RLHF 仍然重要的角色
- “最后的润色”——调整风格、格式、语气
- 让模型更有用:markdown 列表(虽然有些人讨厌但确实高效)、组织方式
- 不同人偏好不同风格——RLHF 在”平均偏好”上工作
- 某种程度上也能提升数学能力(因为格式/组织帮助解题)
下一步:RLVR 2.0
Process Reward Models(PRM)
- 当前 RLVR 只评价最终答案对不对
- PRM 对中间推理步骤也评分——“你的解释本身有多正确?”
- Google 等已有相关论文
Value Functions
- 给模型生成的每个 token 赋值
- 深度 RL 的根基概念——但语言模型推理时代尚未被证明有效
- Nathan:“人们很乐观,但目前证明很少,而且有反面案例”
更难的领域
- 当前:数学和代码是最成熟的可验证领域
- 扩展方向:科学领域、Rubrics(用 LLM 做 judge,根据评分标准打分)
- 前沿实验室正在寻找更难的问题——简单问题被 100% 解决后没有梯度信号
RL 计算量的性质
- 与 pre-training 不同:pre-training 是 compute-bound(矩阵乘法),RL 是 memory-bound(生成长序列,attention 的内存需求二次增长)
- Grok 4 报告:pre-training 和 post-training 使用了”相似量”的算力
- GPU 小时数上,RL 正在接近 pre-training——但使用的 GPU 数量更少、时间更长
- AI2 的 RL run:30B 参数模型 → 5 天(2024 年底)→ 又追加 3.5 周(明显改善)
参考资料
- 来源:Lex Fridman Podcast #490
- 相关论文:DeepSeek R1、OpenAI o1、GRPO、ScaleRL(Meta 实习项目)
- Nathan 的术语命名来自 2023 年 RLVR 论文