RLVR 与推理

创建时间： 2026-05-03 来源： [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关： Scaling-Laws-Three-Axes，Post-Training-Era，RL-Infra-for-LLM，Nathan-Lambert，Sebastian-Raschka，State-of-AI-2026

RLVR 是什么

Reinforcement Learning with Verifiable Rewards（基于可验证奖励的强化学习）。让语言模型生成答案，然后根据客观正确性评分——正确率作为 RL 奖励信号。与 RLHF（基于人类偏好的主观评分）的核心区别：奖励信号是客观的、可验证的。

Nathan Lambert 是 RLVR 术语的命名者之一（2023 年，来自他们团队的工作）。DeepSeek 是第一个规模化突破的实践者（DeepSeek R1）。

工作原理

问题（数学/代码） → 模型生成多个回答 → 评分正确性 → 正确率作为奖励 → RL 更新

经典 RL 框架：agent 在环境中行动，环境返回状态和奖励
语言模型的”行动”= 生成 completion
“环境”= 可验证的任务（数学题、代码测试）
奖励 = 答案是否正确
GRPO（Group Relative Policy Optimization）：奖励基于单个回答相对于同一问题其他回答的好坏——如果所有回答都对了，没有梯度信号

为什么重要

有 scaling law

RLHF 没有：经典论文是”scaling laws for reward model over-optimization”——增加 RLHF 算力回报递减
RLVR 有：log 增加训练算力 → 线性增加评估性能
OpenAI o1 第一个展示这个 scaling plot；DeepSeek 也复现了

解锁工具使用和编码能力

模型在训练中很快学会了：尝试工具 → 看结果 → 尝试另一个 API → 看结果 → 解决问题
赋予模型 CLI 命令执行、Git 操作、信息搜索等能力
“一年前坐在这些椅子上，我们没有真正想过模型能做到这些”

启用推理时间扩展

RLVR 训练 ↔ 推理时间扩展形成”完美风暴”
模型生成更多隐藏推理 token → 更准确的答案
训练越久，回答越长（token 数增加）——变贵但变准

”Aha Moment” 现象

DeepSeek R1 论文中观察到：模型自行识别错误并自我纠正（“啊，我做错了，让我重新试试”）。

争议

乐观解读：RL 让模型学会了”像数学家一样逐步推导”——step-by-step 解释帮助模型提高准确性
怀疑解读：预训练中已见过大量”人类讲解过程”的数据；RLVR 只是放大这些已有行为
Sebastian 的实验证据：Gemma 3 base 在 Math500 上 15% → 50%（仅 50 步 RLVR）——不可能在 50 步内学到新数学知识，一定是”解锁”已有知识
Nathan 的反驳：Qwen 的数据污染问题——base model 在改动数字后仍输出极高精度答案（暗示训练集泄露）

RLHF 仍然重要的角色

“最后的润色”——调整风格、格式、语气
让模型更有用：markdown 列表（虽然有些人讨厌但确实高效）、组织方式
不同人偏好不同风格——RLHF 在”平均偏好”上工作
某种程度上也能提升数学能力（因为格式/组织帮助解题）

下一步：RLVR 2.0

Process Reward Models（PRM）

当前 RLVR 只评价最终答案对不对
PRM 对中间推理步骤也评分——“你的解释本身有多正确？”
Google 等已有相关论文

Value Functions

给模型生成的每个 token 赋值
深度 RL 的根基概念——但语言模型推理时代尚未被证明有效
Nathan：“人们很乐观，但目前证明很少，而且有反面案例”

更难的领域

当前：数学和代码是最成熟的可验证领域
扩展方向：科学领域、Rubrics（用 LLM 做 judge，根据评分标准打分）
前沿实验室正在寻找更难的问题——简单问题被 100% 解决后没有梯度信号

RL 计算量的性质

与 pre-training 不同：pre-training 是 compute-bound（矩阵乘法），RL 是 memory-bound（生成长序列，attention 的内存需求二次增长）
Grok 4 报告：pre-training 和 post-training 使用了”相似量”的算力
GPU 小时数上，RL 正在接近 pre-training——但使用的 GPU 数量更少、时间更长
AI2 的 RL run：30B 参数模型 → 5 天（2024 年底）→ 又追加 3.5 周（明显改善）

参考资料

来源：Lex Fridman Podcast #490
相关论文：DeepSeek R1、OpenAI o1、GRPO、ScaleRL（Meta 实习项目）
Nathan 的术语命名来自 2023 年 RLVR 论文

Notes Wiki

Explorer

RLVR-and-Reasoning