标签 Q-learning 下的文章

找到 2 篇与 Q-learning 相关的结果

强化学习小白入门笔记2：价值学习 Value-Based Reinforcement Learning

admin 8月27日

0 29 0

强化学习小白入门笔记2：价值学习 Value-Based Reinforcement Learning

2025-08-27

在上一篇文章中，我们了解了强化学习的基本概念：智能体（Agent）在环境中通过尝试不同的动作来获得奖励，并学会如何做出最优的决策。今天我们深入探讨强化学习中的一个重要分支——基于价值的强化学习（Value-Based Reinforcement Learning）。什么是基于价值的强化学习想象你是一个准备考研的学生，面临各种选择：看书、刷题、休息、娱乐等。每个选择都会带来不同的长远影响。基于价值的强化学习的核心思想就是：学会预测每个选择（“状态-动作”对）的长期价值，然后选择价值最高的动作。具体来说，价值学习要解决两个关键问题：状态价值函数 V(s)：在某个状态下，未来能获得的总奖励期望是多少？动作价值函数 Q(s,a)：在某个状态下执行某个动作，未来能获得的总奖励期望是多少？举个生活化的例子，假设你在玩一个简单的游戏：在一个5×5的网格世界中寻找宝藏。状态：你当前的位置（比如坐标(2,3)）动作：上、下、左、右四个移动方向奖励：找到宝藏+100分，每移动一步-1分，撞墙-5分状态价值函数V(s)告诉我们：如果你在离宝藏很近的位置，V(s)可能是+95（很快就能找到宝藏）如果你在角落里，V(s)可能是+85（需要更多步数才能到达）动作价值函数Q(s,a)告诉我们：在位置(2,3)时，向右走的Q值可能是+95 在位置(2,3)时，向左走的Q值可能是+85 选择Q值最高的动作就是最优策略基于价值的强化学习的最终目标很直接：找到能够获得最大累计奖励的策略。通过学习准确的价值函数，智能体就能够：评估当前状态的好坏比较不同动作的优劣选择最有前景的动作最终达到最优策略 Deep Q-Network (DQN) 传统Q-Learning的局限性在深度强化学习出现之前，我们使用Q-Learning算法来学习动作价值函数。传统的Q-Learning使用一个表格来存储每个状态-动作对的Q值。但是这种方法有一个致命问题：状态空间爆炸。想象一下：玩俄罗斯方块：屏幕上每个格子都有不同的状态，可能的状态数量是天文数字玩围棋：19×19的棋盘有大约10^170种可能的状态自动驾驶：道路状况、车辆位置、天气等组合起来的状态无穷无尽用表格存储这些状态根本不现实！ DQN：用神经网络近似Q函数 DQN（Deep Q-Network）的核心创新就是：用深度神经网络来近似Q函数，而不是用表格存储。 DQN的基本架构如下：输入状态 → 深度神经网络 → 输出每个动作的Q值超级玛丽图片用公式表示就是：目标Q值 = 当前奖励 + γ × max(下一状态的最大Q值) 实际Q值 = 神经网络当前的预测误差 = 目标Q值 - 实际Q值通过反向传播更新网络参数，减小误差DQN的关键技术经验回放（Experience Replay）就像学习时需要复习一样，DQN会把过去的经历（状态、动作、奖励、新状态）存储起来，然后随机抽取一些来进行训练。好处：避免了相邻经验过于相似导致的训练不稳定类比：就像复习时不按顺序复习，而是随机复习各个知识点目标网络（Target Network） DQN使用两个相同结构的神经网络：主网络：用于选择动作目标网络：用于计算目标Q值，参数定期从主网络复制好处：避免了"追着自己的尾巴跑"的问题，让训练更稳定类比：就像考试时有一个标准答案，不会因为你的答案改变而改变

2025-08-25

强化学习小白入门笔记1：必须要理解的核心概念本文系统介绍了强化学习的核心基础概念，包括智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)等关键术语。通过生活化的找路例子，详细解释了强化学习的工作原理及其在人工智能领域的应用价值。文章还阐述了状态转移、策略、回报、价值函数等进阶概念，为工科研究生和初学者提供了全面的强化学习入门指南，为后续学习Q-learning、Policy Gradient等算法奠定坚实基础。什么是强化学习？在开始介绍具体概念之前，让我们先用一个生活化的例子来理解强化学习的本质。想象一下你刚刚搬到一个新城市，需要找到从家到实验室的最佳路线。一开始你对这个城市一无所知，只能凭直觉选择方向。走错路时你会感到沮丧（负奖励），找到捷径时你会感到高兴（正奖励）。经过多次尝试后，你逐渐学会了如何在不同的交通状况下选择最优路线。这个过程就是强化学习的核心思想：通过与环境互动，根据得到的反馈来改进决策策略。核心概念详解 (1) Agent（智能体）和Environment（环境） Agent（智能体）是强化学习中的"学习者"和"决策者"。在上面的例子中，你就是Agent。在实际应用中，Agent可以是机器人、游戏AI、推荐系统等任何需要做出决策的系统。 Environment（环境）则是Agent所处的外部世界，包含了Agent需要应对的所有外部因素。继续用找路的例子，城市的道路网络、交通信号灯、其他车辆和行人构成了你的环境。这两者的关系是互动的：Agent观察环境，在环境中采取行动，环境则给予Agent反馈。 (2) State（状态） State（状态）是对环境当前情况的完整描述。它包含了Agent做出决策所需的所有相关信息。在找路例子中，状态可能包括：当前位置、目的地、时间、天气、交通拥堵情况等。在下棋游戏中，状态就是当前的棋盘布局。在机器人控制中，状态可能包括机器人的位置、速度、传感器读数等。需要注意的是，状态应该具有马尔可夫性质，即"未来只依赖于现在，而不依赖于过去"。简单来说，只要知道当前状态，就能对未来做出最好的决策，不需要知道是如何到达当前状态的。 (3) Action（动作） Action（动作）是Agent在给定状态下可以执行的所有可能操作。在找路例子中，你的动作可能是"直行"、"左转"、"右转"、"掉头"等。在下棋中，动作就是在棋盘上的合法落子位置。在机器人控制中，动作可能是各种运动指令。动作可以是离散的（如选择特定的路径），也可以是连续的（如设置具体的速度值）。 (4) Reward（奖励） Reward（奖励）是环境对Agent动作的即时反馈，用一个数值来表示动作的好坏。这是强化学习中最关键的概念之一，因为Agent的目标就是最大化累积奖励。在找路例子中，快速到达目的地可能得到正奖励，走错路或遇到堵车得到负奖励。在游戏中，获胜得到正奖励，失败得到负奖励。奖励的设计需要非常小心，因为Agent会严格按照奖励信号来优化自己的行为。如果奖励设计不当，可能会导致Agent学会"钻空子"而不是解决真正的问题。 (5) State Transition（状态转移） State Transition（状态转移）描述了环境如何从一个状态变化到另一个状态。当Agent在状态s下执行动作a时，环境会转移到新状态s'，这个过程可能是确定的，也可能是随机的。在找路例子中，如果你在十字路口选择左转，确定性的状态转移会让你到达左边的街道。但如果考虑到突发的交通事故或道路施工，状态转移就可能带有随机性。 (6) Policy（策略） Policy（策略）是Agent的"行动指南"，它定义了在每个状态下应该采取什么动作。策略通常用π来表示。策略可以是确定性的（在给定状态下总是执行同一个动作）或随机性的（根据概率分布选择动作）。在找路例子中，你的策略可能是"在工作日早高峰时避开主干道，选择小路"。 (7) Return（回报） Return（回报）是从某个时刻开始的累积奖励。与即时奖励不同，回报考虑的是长期收益。假设Agent在时刻t得到奖励序列：r_{t+1}, r_{t+2}, r_{t+3}, ...，那么从时刻t开始的回报通常定义为： G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ... 其中γ（gamma）是折扣因子（0 ≤ γ ≤ 1），用来平衡即时奖励和未来奖励的重要性。 γ越接近1，Agent越重视未来奖励；γ越接近0，Agent越重视即时奖励。 (8) Value Function（价值函数）价值函数评估状态或动作的"好坏程度"，是强化学习中的核心概念。 State-value Function（状态价值函数）V^π(s)表示在状态s下，遵循策略π能够获得的期望回报。简单来说，它回答了"在这个状态下，按照当前策略行动，我能期望获得多少总奖励？" 在找路例子中，如果某个路口的状态价值很高，说明从这个路口出发，按照你当前的策略，很可能快速到达目的地。 (9) Action-value Function（动作价值函数） Action-value Function（动作价值函数）Q^π(s,a)表示在状态s下执行动作a，然后遵循策略π的期望回报。它回答了"在当前状态下，如果我执行这个特定动作，然后按照策略继续行动，我能期望获得多少总奖励？" Q函数比V函数提供了更细粒度的信息，因为它不仅告诉你状态的价值，还告诉你在该状态下不同动作的价值。 (10) Optimal Action-value Function（最优动作价值函数） Optimal Action-value Function（最优动作价值函数）, Q*(s,a)表示在状态s下执行动作a，然后遵循最优策略的期望回报。这是在给定状态和动作下能够获得的最大可能回报。强化学习的另一个主要目标就是学习到最优Q函数Q，因为一旦有了Q，就可以通过选择使Q*(s,a)最大的动作a来获得最优策略。迭代优化图片概念的关系 Environment ←→ Agent ↓ ↓ State → Action ↓ ↓ Reward ← Policy ↓ Return ↓ Value FunctionsAgent观察Environment的State，根据Policy选择Action，Environment给出Reward并转移到新State。通过积累Reward形成Return，进而计算Value Functions来评估Policy的好坏，最终优化Policy。训练是学什么？强化学习的核心目标是：学习最优策略π*：知道在每个状态下应该采取什么动作学习最优Q函数Q*：知道在每个状态下，每个动作的真实价值这两个目标是相互关联的。如果我们有了最优Q函数，就可以通过贪婪策略（即选择Q值最大的动作）得到最优策略。反之，如果我们有了最优策略，也可以通过该策略评估出最优Q函数。小结强化学习是一个让智能体通过与环境互动来学习最优决策策略的框架。理解这些核心概念是深入学习强化学习算法的基础： Agent和Environment构成了学习的基本框架 State、Action、Reward是互动的基本要素 Policy是我们要学习的决策规则 Value Functions帮助我们评估决策的好坏 Return连接了即时奖励和长期目标在后续的学习中，你会发现所有的强化学习算法，无论是Q-learning、Policy Gradient还是Actor-Critic，都是围绕着如何更好地学习π*或Q*而设计的。掌握了这些基础概念，你就为进一步学习具体算法打下了坚实的基础。

深度学习 # 深度学习 # 强化学习 # 机器学习 # 人工智能 # 智能体 # 价值函数 # Q-learning # 工科研究生 # AI算法

admin 8月25日

0 76 0