强化学习小白入门笔记2：价值学习 Value-Based Reinforcement Learning

admin

8月27日发布

0 24 0

温馨提示：

本文最后更新于2025年08月27日，已超过57天没有更新，若内容或图片失效，请留言反馈。

在上一篇文章中，我们了解了强化学习的基本概念：智能体（Agent）在环境中通过尝试不同的动作来获得奖励，并学会如何做出最优的决策。今天我们深入探讨强化学习中的一个重要分支——基于价值的强化学习（Value-Based Reinforcement Learning）。

什么是基于价值的强化学习

想象你是一个准备考研的学生，面临各种选择：看书、刷题、休息、娱乐等。每个选择都会带来不同的长远影响。基于价值的强化学习的核心思想就是：学会预测每个选择（“状态-动作”对）的长期价值，然后选择价值最高的动作。

具体来说，价值学习要解决两个关键问题：

举个生活化的例子，假设你在玩一个简单的游戏：在一个5×5的网格世界中寻找宝藏。

状态：你当前的位置（比如坐标(2,3)）

动作：上、下、左、右四个移动方向

奖励：找到宝藏+100分，每移动一步-1分，撞墙-5分

状态价值函数V(s)告诉我们：

动作价值函数Q(s,a)告诉我们：

基于价值的强化学习的最终目标很直接：找到能够获得最大累计奖励的策略。通过学习准确的价值函数，智能体就能够：

在深度强化学习出现之前，我们使用Q-Learning算法来学习动作价值函数。传统的Q-Learning使用一个表格来存储每个状态-动作对的Q值。

但是这种方法有一个致命问题：状态空间爆炸。

想象一下：

用表格存储这些状态根本不现实！

DQN（Deep Q-Network）的核心创新就是：用深度神经网络来近似Q函数，而不是用表格存储。

DQN的基本架构如下：

输入状态 → 深度神经网络 → 输出每个动作的Q值

超级玛丽

用公式表示就是：

目标Q值 = 当前奖励 + γ × max(下一状态的最大Q值)
实际Q值 = 神经网络当前的预测
误差 = 目标Q值 - 实际Q值
通过反向传播更新网络参数，减小误差

就像学习时需要复习一样，DQN会把过去的经历（状态、动作、奖励、新状态）存储起来，然后随机抽取一些来进行训练。

DQN使用两个相同结构的神经网络：

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧