标签策略学习下的文章 - 开源小栈

登录 / 注册

找到 1 篇与策略学习相关的结果

强化学习小白入门笔记4：策略学习Policy-Based Reinforcement Learning

深度学习 # 强化学习 # 策略函数 # 策略学习 # 策略梯度算法 # 梯度上升 # Policy-Based # 观测状态

admin 8月27日

0 29 0

强化学习小白入门笔记4：策略学习Policy-Based Reinforcement Learning

在前面的学习中，我们了解了强化学习的基本概念以及价值学习。今天我们要学习一个新的方法——策略学习（Policy-Based Reinforcement Learning）。如果说之前学的方法是"先学会评估，再决定行动"，那么策略学习就是"直接学会怎么行动"。什么是策略函数？想象你在玩一个游戏，比如超级玛丽。在每个游戏画面（状态）下，你都要做出选择：是往左走、往右走、跳跃，还是按下其他按键？策略函数π(a | s)就是一个"决策助手"，它的工作是：输入：当前的游戏画面（状态s）输出：每个可能动作的概率比如，当玛丽面前有个坑时，策略函数可能会输出：跳跃：80%的概率往前走：15%的概率往后退：5%的概率你可能会问：为什么不直接告诉我应该做什么，而要给我一堆概率呢？这就像生活中的决策一样。即使是相同的情况，有时候我们也会做出不同的选择。在强化学习中，这种"随机性"有几个好处：探索性：可以尝试不同的动作，避免陷入局部最优适应性：在不确定的环境中更灵活连续改进：通过调整概率分布来慢慢学习最优策略策略学习的基本思想传统方法可能需要我们手工设计规则，比如"看到敌人就攻击"、"血量低就逃跑"等。但是策略学习的思路是：让神经网络自己学会这些决策规则。这个过程就像训练一个新手玩家：给他看各种游戏画面让他尝试不同的动作根据结果的好坏来调整他的决策倾向重复这个过程，直到他变成高手策略梯度算法：让AI学会"从错误中学习" 这里要说明两种情况：离散动作 vs 连续动作离散动作：就像游戏手柄的按键，要么按下，要么不按。比如：向上、向下、向左、向右攻击、防御、使用道具连续动作：就像方向盘的转向，可以有无数种角度。比如：汽车转向的角度（0度到360度之间的任意值）机器人手臂的移动距离两种动作类型的区别主要在于策略函数的输出形式：离散动作：输出每个动作的概率，比如[上:0.2, 下:0.3, 左:0.4, 右:0.1] 连续动作：输出分布的参数，比如正态分布的均值μ=1.5和标准差σ=0.8 但无论哪种类型，都使用相同的学习框架：采样→执行→评估→学习。不同类型的动作需要用不同的数学方法来处理，但核心思想是一样的。蒙特卡洛估计本身与动作类型无关，它是一种估计期望值的方法，无论是离散动作还是连续动作都可以使用。策略梯度算法的工作流程 AI玩贪吃蛇游戏图片让我们用一个具体的例子来理解整个流程。假设我们在训练一个AI玩贪吃蛇游戏：（1）获得观测状态s_t AI看到当前的游戏画面：蛇的位置、食物的位置、墙壁的位置等就像你玩游戏时观察屏幕一样（2）从策略函数中随机采样动作a_t 神经网络分析画面，给出四个方向的概率，比如：上：10% 下：20% 左：30% 右：40% AI根据这些概率随机选择一个动作，比如选择了"右" （3）计算价值函数的值这一步是评估"这个动作到底好不好"。有两种方法：方法1：完整记录法把整个游戏过程都记录下来游戏结束后，看最终得分如果得分高，说明这局的所有动作都不错就像考试后根据总分来评价每个题目的答题策略方法2：价值网络评估法训练另一个神经网络来预测"当前状态有多好" 不用等游戏结束，立即就能知道动作的好坏就像有个经验丰富的教练在旁边实时指导（4）对价值网络进行求导这是计算"应该往哪个方向调整"的数学步骤就像确定"应该增加还是减少某个动作的概率" （5）近似计算策略梯度梯度告诉我们"参数应该怎么调整" 如果某个动作导致了好结果，就增加它的概率如果某个动作导致了坏结果，就降低它的概率（6）更新网络的参数根据计算出的梯度来调整神经网络让AI在下一次遇到类似情况时，做出更好的选择为什么是梯度上升而不是下降？在机器学习中，我们通常听到"梯度下降"，为什么到强化学习这里是"梯度上升"呢？梯度下降：用来最小化损失（比如预测错误）梯度上升：用来最大化奖励（比如游戏得分）想象你在爬山：如果你想到达山谷（最小化高度），你会沿着下坡的方向走 → 梯度下降如果你想到达山顶（最大化高度），你会沿着上坡的方向走 → 梯度上升在强化学习中，我们的目标是最大化累积奖励，所以我们要"往山顶爬"，因此使用梯度上升。梯度上升图片小结策略学习是强化学习中的一个重要分支，它的核心思想是直接学习决策策略。通过神经网络来拟合策略函数，使用策略梯度算法来优化参数，最终让AI学会在不同状态下做出最优的动作选择。虽然这个方法听起来复杂，但其实就是在模拟人类学习的过程：观察环境、尝试行动、评估结果、调整策略。理解了这个基本思路，你就掌握了策略学习的精髓。在下一篇笔记中，我们将学习更多具体的策略学习算法，比如REINFORCE、Actor-Critic等。这些都是基于今天学到的基础概念发展而来的。