奖赏预测误差

创建时间： 2026-05-03 来源： [[sources/EP78《贪婪的多巴胺》：如何像沉迷游戏一样沉迷学习？.md]] 相关： Dopamine-System，Pleasure-Pain-Balance，Hedonic-Adaptation

核心机制

多巴胺不在奖赏到来时释放，而是在预测到奖赏时就释放。

剑桥大学沃尔夫·拉姆·舒尔茨的猴子实验：先亮灯，再给果汁。猴子掌握规律后，多巴胺在亮灯时就释放完毕，真正喝到果汁时已无新的多巴胺释放。

第二波多巴胺取决于结果与预测的差距：

多巴胺永远在找误差，不是找最终结果。

一见钟情 = 在最不可预测的时候，发现对方对你动心，你也对对方动心。预测与结果产生巨大差距，多巴胺奖励你。

这解释了为什么”欢喜冤家”模式存在——在 least expected 的时候产生预测误差。

失败 = 负向预测误差 → 多巴胺惩罚 → 恐惧失败 → PTSD

重构两步：

重构需要耐心——神经回路要重复很多趟才能走强。不停重构，直到犯错同时产生负面误差的惩罚和正面误差的奖赏（“吃一堑长一智的机会又来了”）。

目标设太高 → 屡屡失败 → 多巴胺严厉惩罚 → 产生 PTSD、厌恶、恐惧 → 厌学

目标设太低 → 预测时多巴胺释放不足 → 没有动力

最佳策略：

当目标遥远时，多巴胺进化出了在每一个小线索处都释放的机制：一个预测 → 一个线索 → 一波动力 → 下一个预测 → 下一个线索……

线索连成片 = 心流。心流就是多巴胺奖赏连成片的体验。

这解释了为什么我们喜欢破案片、悬疑、八卦——源源不断的线索 = 多巴胺持续奖赏。

当结果不可预测时：

无论结果好坏，你都会继续上瘾。 赌博、盲盒、老虎机、社交媒体点赞、手机游戏全部利用这个机制。

现代科技通过大数据精准控制奖赏概率：游戏中 25% 的箱子有珠宝是让人最疯狂的数字。