分类深度学习下的文章 - 开源小栈

登录 / 注册

找到 10 篇与深度学习相关的结果

强化学习小白入门笔记4：策略学习Policy-Based Reinforcement Learning

深度学习 # 强化学习 # 策略函数 # 策略学习 # 策略梯度算法 # 梯度上升 # Policy-Based # 观测状态

admin 8月27日

0 29 0

强化学习小白入门笔记4：策略学习Policy-Based Reinforcement Learning

在前面的学习中，我们了解了强化学习的基本概念以及价值学习。今天我们要学习一个新的方法——策略学习（Policy-Based Reinforcement Learning）。如果说之前学的方法是"先学会评估，再决定行动"，那么策略学习就是"直接学会怎么行动"。什么是策略函数？想象你在玩一个游戏，比如超级玛丽。在每个游戏画面（状态）下，你都要做出选择：是往左走、往右走、跳跃，还是按下其他按键？策略函数π(a | s)就是一个"决策助手"，它的工作是：输入：当前的游戏画面（状态s）输出：每个可能动作的概率比如，当玛丽面前有个坑时，策略函数可能会输出：跳跃：80%的概率往前走：15%的概率往后退：5%的概率你可能会问：为什么不直接告诉我应该做什么，而要给我一堆概率呢？这就像生活中的决策一样。即使是相同的情况，有时候我们也会做出不同的选择。在强化学习中，这种"随机性"有几个好处：探索性：可以尝试不同的动作，避免陷入局部最优适应性：在不确定的环境中更灵活连续改进：通过调整概率分布来慢慢学习最优策略策略学习的基本思想传统方法可能需要我们手工设计规则，比如"看到敌人就攻击"、"血量低就逃跑"等。但是策略学习的思路是：让神经网络自己学会这些决策规则。这个过程就像训练一个新手玩家：给他看各种游戏画面让他尝试不同的动作根据结果的好坏来调整他的决策倾向重复这个过程，直到他变成高手策略梯度算法：让AI学会"从错误中学习" 这里要说明两种情况：离散动作 vs 连续动作离散动作：就像游戏手柄的按键，要么按下，要么不按。比如：向上、向下、向左、向右攻击、防御、使用道具连续动作：就像方向盘的转向，可以有无数种角度。比如：汽车转向的角度（0度到360度之间的任意值）机器人手臂的移动距离两种动作类型的区别主要在于策略函数的输出形式：离散动作：输出每个动作的概率，比如[上:0.2, 下:0.3, 左:0.4, 右:0.1] 连续动作：输出分布的参数，比如正态分布的均值μ=1.5和标准差σ=0.8 但无论哪种类型，都使用相同的学习框架：采样→执行→评估→学习。不同类型的动作需要用不同的数学方法来处理，但核心思想是一样的。蒙特卡洛估计本身与动作类型无关，它是一种估计期望值的方法，无论是离散动作还是连续动作都可以使用。策略梯度算法的工作流程 AI玩贪吃蛇游戏图片让我们用一个具体的例子来理解整个流程。假设我们在训练一个AI玩贪吃蛇游戏：（1）获得观测状态s_t AI看到当前的游戏画面：蛇的位置、食物的位置、墙壁的位置等就像你玩游戏时观察屏幕一样（2）从策略函数中随机采样动作a_t 神经网络分析画面，给出四个方向的概率，比如：上：10% 下：20% 左：30% 右：40% AI根据这些概率随机选择一个动作，比如选择了"右" （3）计算价值函数的值这一步是评估"这个动作到底好不好"。有两种方法：方法1：完整记录法把整个游戏过程都记录下来游戏结束后，看最终得分如果得分高，说明这局的所有动作都不错就像考试后根据总分来评价每个题目的答题策略方法2：价值网络评估法训练另一个神经网络来预测"当前状态有多好" 不用等游戏结束，立即就能知道动作的好坏就像有个经验丰富的教练在旁边实时指导（4）对价值网络进行求导这是计算"应该往哪个方向调整"的数学步骤就像确定"应该增加还是减少某个动作的概率" （5）近似计算策略梯度梯度告诉我们"参数应该怎么调整" 如果某个动作导致了好结果，就增加它的概率如果某个动作导致了坏结果，就降低它的概率（6）更新网络的参数根据计算出的梯度来调整神经网络让AI在下一次遇到类似情况时，做出更好的选择为什么是梯度上升而不是下降？在机器学习中，我们通常听到"梯度下降"，为什么到强化学习这里是"梯度上升"呢？梯度下降：用来最小化损失（比如预测错误）梯度上升：用来最大化奖励（比如游戏得分）想象你在爬山：如果你想到达山谷（最小化高度），你会沿着下坡的方向走 → 梯度下降如果你想到达山顶（最大化高度），你会沿着上坡的方向走 → 梯度上升在强化学习中，我们的目标是最大化累积奖励，所以我们要"往山顶爬"，因此使用梯度上升。梯度上升图片小结策略学习是强化学习中的一个重要分支，它的核心思想是直接学习决策策略。通过神经网络来拟合策略函数，使用策略梯度算法来优化参数，最终让AI学会在不同状态下做出最优的动作选择。虽然这个方法听起来复杂，但其实就是在模拟人类学习的过程：观察环境、尝试行动、评估结果、调整策略。理解了这个基本思路，你就掌握了策略学习的精髓。在下一篇笔记中，我们将学习更多具体的策略学习算法，比如REINFORCE、Actor-Critic等。这些都是基于今天学到的基础概念发展而来的。

强化学习小白入门笔记3：深入理解时序差分学习的原理和应用Temporal Difference Learning 时序差分学习（Temporal Difference Learning，简称TD学习）是强化学习中最重要的概念之一，也是现代强化学习算法的核心基础。如果说强化学习是一栋大厦，那么TD学习就是这栋大厦的地基。本文主要是面向初学者，深入理解这个看似复杂但实际上非常直观的学习方法。学习的本质是什么？在开始之前，让我们思考一个问题：人类是如何学习的？想象你第一次学开车。你不会等到考完驾照才开始总结经验，而是在每次练车过程中不断调整：刚开始转弯时总是转得太急，几次练习后学会了提前减速停车时总是停不准，通过观察后视镜的反馈不断改进每次小的改进都基于当时的反馈，而不是等到所有练习结束这就是TD学习的核心思想：用当前的经验来改进我们的预测，而不是等到所有事情结束。 TD学习的核心思想时序差分这个名字听起来很学术，但概念其实很简单：时序：涉及时间序列，我们在不同时刻有不同的预测差分：比较不同时刻预测之间的差异 TD学习的核心就是：用"更准确的后续预测"来改进"当前的预测"。简单来说就是“有事及时处理”。生活化的类比：天气预报学习假设你想学会预测天气，但你不是气象专家，只能通过观察来学习。传统方法（等到月底再学习）：月初预测：这个月平均气温25度等到月底：实际平均气温27度月底学习：调整下个月的预测策略 TD方法（每天都学习）： 1号预测：这个月平均25度，明天26度 2号实际：昨天确实26度，今天预测这个月平均25.1度，明天27度发现：昨天预测月平均25度，但今天的新信息（实际26度+预测明天27度）暗示月平均可能更高立即调整：把对这个月平均气温的预测从25度调到25.1度关键洞察：我们不需要等到月底，每天的新信息都能帮助我们改进长期预测！天气预报图片 TD学习的数学原理 TD学习的核心公式看起来是这样的： V(s) ← V(s) + α × [r + γ × V(s') - V(s)]各部分含义： V(s)：我们对状态s的价值估计 α：学习率（0-1之间，比如0.1） r：在状态s执行动作后获得的即时奖励 γ：折扣因子（0-1之间，比如0.9） V(s')：我们对下一状态s'的价值估计核心思想：新估计 = 旧估计 + 学习率 × (更好的估计 - 旧估计) 公式中的 [r + γ × V(s') - V(s)] 被称为TD误差（TD Error），这是TD学习的核心： r + γ × V(s') ：基于当前经验的"更好估计" r：我们实际获得的奖励 γ × V(s')：未来价值的折扣估计 V(s)：我们之前的估计 TD误差：两者的差值，告诉我们估计的准确程度 TD误差的含义：如果TD误差 > 0：我们低估了当前状态的价值，应该调高如果TD误差 < 0：我们高估了当前状态的价值，应该调低如果TD误差 = 0：我们的估计刚好准确机器人学习走迷宫问题设置想象一个简单的3×3迷宫： [S][ ][G] [ ][#][ ] [ ][ ][ ]S：起始位置 G：目标位置（奖励+10） \#：障碍物空格：可以通行（每步奖励-1）学习目标：学会评估每个位置的价值（从该位置到达目标的期望累计奖励）初始状态刚开始时，机器人对所有位置的价值估计都是0：价值估计表： V(S) = 0, V(G) = 10, V(其他位置) = 0 学习率 α = 0.1 折扣因子 γ = 0.9第一次探索过程步骤1：从S向右移动当前状态：S，价值估计V(S) = 0 执行动作：向右获得奖励：r = -1（移动成本）到达新状态：中间位置，价值估计V(中间) = 0 TD更新： TD误差 = r + γ × V(中间) - V(S) = -1 + 0.9 × 0 - 0 = -1 更新V(S) = V(S) + α × TD误差 = 0 + 0.1 × (-1) = -0.1步骤2：从中间向右移动到目标当前状态：中间，价值估计V(中间) = 0 执行动作：向右获得奖励：r = 10（到达目标）到达新状态：目标G，价值估计V(G) = 10 TD更新： TD误差 = r + γ × V(G) - V(中间) = 10 + 0.9 × 10 - 0 = 19 更新V(中间) = V(中间) + α × TD误差 = 0 + 0.1 × 19 = 1.9第二次探索过程现在价值估计表变成了： V(S) = -0.1, V(中间) = 1.9, V(G) = 10再次从S向右移动： TD误差 = r + γ × V(中间) - V(S) = -1 + 0.9 × 1.9 - (-0.1) = -1 + 1.71 + 0.1 = 0.81 更新V(S) = -0.1 + 0.1 × 0.81 = -0.019学习过程的直观理解通过这个例子，我们可以看到：即时学习：每走一步都更新价值估计，不用等到到达终点信息传播：目标的高价值（+10）逐渐"传播"到前面的状态渐进改进：每次更新都让估计更准确一点点最终收敛：经过足够多的探索，所有状态的价值估计会趋于真实值 TD学习的优势与局限主要优势模型无关：不需要知道环境的转移概率和奖励函数在线学习：可以在与环境交互过程中实时学习内存高效：不需要存储完整的轨迹历史快速响应：能够快速适应环境的变化理论保证：在一定条件下保证收敛到最优解主要局限探索问题：如何平衡探索未知状态和利用已知信息函数近似：在大状态空间中需要函数近似，可能不稳定参数调整：学习率、折扣因子等参数需要仔细调整收敛速度：虽然每步都学习，但总体收敛可能较慢

深度学习 # 强化学习 # 时序差分学习 # 数学原理 # 走迷宫 # 转移概率 # 奖励函数 # 折扣因子 # 预测策略

admin 8月27日

0 57 0

强化学习小白入门笔记2：价值学习 Value-Based Reinforcement Learning

深度学习 # 强化学习 # Q-learning # 价值学习 # Value-Based # 动作价值函数 # 状态价值函数 # DQN # 神经网络 # 经验回放

admin 8月27日

0 29 0

强化学习小白入门笔记2：价值学习 Value-Based Reinforcement Learning

在上一篇文章中，我们了解了强化学习的基本概念：智能体（Agent）在环境中通过尝试不同的动作来获得奖励，并学会如何做出最优的决策。今天我们深入探讨强化学习中的一个重要分支——基于价值的强化学习（Value-Based Reinforcement Learning）。什么是基于价值的强化学习想象你是一个准备考研的学生，面临各种选择：看书、刷题、休息、娱乐等。每个选择都会带来不同的长远影响。基于价值的强化学习的核心思想就是：学会预测每个选择（“状态-动作”对）的长期价值，然后选择价值最高的动作。具体来说，价值学习要解决两个关键问题：状态价值函数 V(s)：在某个状态下，未来能获得的总奖励期望是多少？动作价值函数 Q(s,a)：在某个状态下执行某个动作，未来能获得的总奖励期望是多少？举个生活化的例子，假设你在玩一个简单的游戏：在一个5×5的网格世界中寻找宝藏。状态：你当前的位置（比如坐标(2,3)）动作：上、下、左、右四个移动方向奖励：找到宝藏+100分，每移动一步-1分，撞墙-5分状态价值函数V(s)告诉我们：如果你在离宝藏很近的位置，V(s)可能是+95（很快就能找到宝藏）如果你在角落里，V(s)可能是+85（需要更多步数才能到达）动作价值函数Q(s,a)告诉我们：在位置(2,3)时，向右走的Q值可能是+95 在位置(2,3)时，向左走的Q值可能是+85 选择Q值最高的动作就是最优策略基于价值的强化学习的最终目标很直接：找到能够获得最大累计奖励的策略。通过学习准确的价值函数，智能体就能够：评估当前状态的好坏比较不同动作的优劣选择最有前景的动作最终达到最优策略 Deep Q-Network (DQN) 传统Q-Learning的局限性在深度强化学习出现之前，我们使用Q-Learning算法来学习动作价值函数。传统的Q-Learning使用一个表格来存储每个状态-动作对的Q值。但是这种方法有一个致命问题：状态空间爆炸。想象一下：玩俄罗斯方块：屏幕上每个格子都有不同的状态，可能的状态数量是天文数字玩围棋：19×19的棋盘有大约10^170种可能的状态自动驾驶：道路状况、车辆位置、天气等组合起来的状态无穷无尽用表格存储这些状态根本不现实！ DQN：用神经网络近似Q函数 DQN（Deep Q-Network）的核心创新就是：用深度神经网络来近似Q函数，而不是用表格存储。 DQN的基本架构如下：输入状态 → 深度神经网络 → 输出每个动作的Q值超级玛丽图片用公式表示就是：目标Q值 = 当前奖励 + γ × max(下一状态的最大Q值) 实际Q值 = 神经网络当前的预测误差 = 目标Q值 - 实际Q值通过反向传播更新网络参数，减小误差DQN的关键技术经验回放（Experience Replay）就像学习时需要复习一样，DQN会把过去的经历（状态、动作、奖励、新状态）存储起来，然后随机抽取一些来进行训练。好处：避免了相邻经验过于相似导致的训练不稳定类比：就像复习时不按顺序复习，而是随机复习各个知识点目标网络（Target Network） DQN使用两个相同结构的神经网络：主网络：用于选择动作目标网络：用于计算目标Q值，参数定期从主网络复制好处：避免了"追着自己的尾巴跑"的问题，让训练更稳定类比：就像考试时有一个标准答案，不会因为你的答案改变而改变

强化学习小白入门笔记1：必须要理解的核心概念

强化学习小白入门笔记1：必须要理解的核心概念本文系统介绍了强化学习的核心基础概念，包括智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)等关键术语。通过生活化的找路例子，详细解释了强化学习的工作原理及其在人工智能领域的应用价值。文章还阐述了状态转移、策略、回报、价值函数等进阶概念，为工科研究生和初学者提供了全面的强化学习入门指南，为后续学习Q-learning、Policy Gradient等算法奠定坚实基础。什么是强化学习？在开始介绍具体概念之前，让我们先用一个生活化的例子来理解强化学习的本质。想象一下你刚刚搬到一个新城市，需要找到从家到实验室的最佳路线。一开始你对这个城市一无所知，只能凭直觉选择方向。走错路时你会感到沮丧（负奖励），找到捷径时你会感到高兴（正奖励）。经过多次尝试后，你逐渐学会了如何在不同的交通状况下选择最优路线。这个过程就是强化学习的核心思想：通过与环境互动，根据得到的反馈来改进决策策略。核心概念详解 (1) Agent（智能体）和Environment（环境） Agent（智能体）是强化学习中的"学习者"和"决策者"。在上面的例子中，你就是Agent。在实际应用中，Agent可以是机器人、游戏AI、推荐系统等任何需要做出决策的系统。 Environment（环境）则是Agent所处的外部世界，包含了Agent需要应对的所有外部因素。继续用找路的例子，城市的道路网络、交通信号灯、其他车辆和行人构成了你的环境。这两者的关系是互动的：Agent观察环境，在环境中采取行动，环境则给予Agent反馈。 (2) State（状态） State（状态）是对环境当前情况的完整描述。它包含了Agent做出决策所需的所有相关信息。在找路例子中，状态可能包括：当前位置、目的地、时间、天气、交通拥堵情况等。在下棋游戏中，状态就是当前的棋盘布局。在机器人控制中，状态可能包括机器人的位置、速度、传感器读数等。需要注意的是，状态应该具有马尔可夫性质，即"未来只依赖于现在，而不依赖于过去"。简单来说，只要知道当前状态，就能对未来做出最好的决策，不需要知道是如何到达当前状态的。 (3) Action（动作） Action（动作）是Agent在给定状态下可以执行的所有可能操作。在找路例子中，你的动作可能是"直行"、"左转"、"右转"、"掉头"等。在下棋中，动作就是在棋盘上的合法落子位置。在机器人控制中，动作可能是各种运动指令。动作可以是离散的（如选择特定的路径），也可以是连续的（如设置具体的速度值）。 (4) Reward（奖励） Reward（奖励）是环境对Agent动作的即时反馈，用一个数值来表示动作的好坏。这是强化学习中最关键的概念之一，因为Agent的目标就是最大化累积奖励。在找路例子中，快速到达目的地可能得到正奖励，走错路或遇到堵车得到负奖励。在游戏中，获胜得到正奖励，失败得到负奖励。奖励的设计需要非常小心，因为Agent会严格按照奖励信号来优化自己的行为。如果奖励设计不当，可能会导致Agent学会"钻空子"而不是解决真正的问题。 (5) State Transition（状态转移） State Transition（状态转移）描述了环境如何从一个状态变化到另一个状态。当Agent在状态s下执行动作a时，环境会转移到新状态s'，这个过程可能是确定的，也可能是随机的。在找路例子中，如果你在十字路口选择左转，确定性的状态转移会让你到达左边的街道。但如果考虑到突发的交通事故或道路施工，状态转移就可能带有随机性。 (6) Policy（策略） Policy（策略）是Agent的"行动指南"，它定义了在每个状态下应该采取什么动作。策略通常用π来表示。策略可以是确定性的（在给定状态下总是执行同一个动作）或随机性的（根据概率分布选择动作）。在找路例子中，你的策略可能是"在工作日早高峰时避开主干道，选择小路"。 (7) Return（回报） Return（回报）是从某个时刻开始的累积奖励。与即时奖励不同，回报考虑的是长期收益。假设Agent在时刻t得到奖励序列：r_{t+1}, r_{t+2}, r_{t+3}, ...，那么从时刻t开始的回报通常定义为： G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ... 其中γ（gamma）是折扣因子（0 ≤ γ ≤ 1），用来平衡即时奖励和未来奖励的重要性。 γ越接近1，Agent越重视未来奖励；γ越接近0，Agent越重视即时奖励。 (8) Value Function（价值函数）价值函数评估状态或动作的"好坏程度"，是强化学习中的核心概念。 State-value Function（状态价值函数）V^π(s)表示在状态s下，遵循策略π能够获得的期望回报。简单来说，它回答了"在这个状态下，按照当前策略行动，我能期望获得多少总奖励？" 在找路例子中，如果某个路口的状态价值很高，说明从这个路口出发，按照你当前的策略，很可能快速到达目的地。 (9) Action-value Function（动作价值函数） Action-value Function（动作价值函数）Q^π(s,a)表示在状态s下执行动作a，然后遵循策略π的期望回报。它回答了"在当前状态下，如果我执行这个特定动作，然后按照策略继续行动，我能期望获得多少总奖励？" Q函数比V函数提供了更细粒度的信息，因为它不仅告诉你状态的价值，还告诉你在该状态下不同动作的价值。 (10) Optimal Action-value Function（最优动作价值函数） Optimal Action-value Function（最优动作价值函数）, Q*(s,a)表示在状态s下执行动作a，然后遵循最优策略的期望回报。这是在给定状态和动作下能够获得的最大可能回报。强化学习的另一个主要目标就是学习到最优Q函数Q，因为一旦有了Q，就可以通过选择使Q*(s,a)最大的动作a来获得最优策略。迭代优化图片概念的关系 Environment ←→ Agent ↓ ↓ State → Action ↓ ↓ Reward ← Policy ↓ Return ↓ Value FunctionsAgent观察Environment的State，根据Policy选择Action，Environment给出Reward并转移到新State。通过积累Reward形成Return，进而计算Value Functions来评估Policy的好坏，最终优化Policy。训练是学什么？强化学习的核心目标是：学习最优策略π*：知道在每个状态下应该采取什么动作学习最优Q函数Q*：知道在每个状态下，每个动作的真实价值这两个目标是相互关联的。如果我们有了最优Q函数，就可以通过贪婪策略（即选择Q值最大的动作）得到最优策略。反之，如果我们有了最优策略，也可以通过该策略评估出最优Q函数。小结强化学习是一个让智能体通过与环境互动来学习最优决策策略的框架。理解这些核心概念是深入学习强化学习算法的基础： Agent和Environment构成了学习的基本框架 State、Action、Reward是互动的基本要素 Policy是我们要学习的决策规则 Value Functions帮助我们评估决策的好坏 Return连接了即时奖励和长期目标在后续的学习中，你会发现所有的强化学习算法，无论是Q-learning、Policy Gradient还是Actor-Critic，都是围绕着如何更好地学习π*或Q*而设计的。掌握了这些基础概念，你就为进一步学习具体算法打下了坚实的基础。

深度学习 # 深度学习 # 强化学习 # 机器学习 # 人工智能 # 智能体 # 价值函数 # Q-learning # 工科研究生 # AI算法

admin 8月25日

0 76 0

从PointNet到PointNet++，小白也能看懂的核心思想

从PointNet到PointNet++，小白也能看懂的核心思想欢迎来到小陶的技术博客。如果你和我一样，是一名刚刚踏入三维点云处理世界的新手，你一定听说过 PointNet 和 PointNet++ 这两个大名鼎鼎的模型。它们就像是3D视觉领域的“开山鼻祖”，理解了它们，学习之路会顺畅很多。今天，我也是根据自己看的一些别的博客资料以及B站视频，梳理这两个模型的“来龙去脉”和核心思想。为什么要有点云模型？传统方法不行吗？深入了解PointNet之前，先问一个问题：我们熟悉的二维图片处理方法（比如CNN，卷积神经网络）为什么不能直接用在三维点云上？想象一下，一张图片就像一个整齐的棋盘，每个像素都有自己固定的位置。CNN的“卷积核”就像一个小窗口，在棋盘上规律地滑来滑去，提取特征。但点云完全不同，它就像一把随意撒在空中的沙子。它有两大特性，让CNN直接“水土不服”：无序性 (Unordered)：一堆点，你先看A点再看B点，和我先看B点再看A点，描述的应该是同一个物体。点的顺序不应该影响最终结果。但对于传统神经网络，输入顺序变了，结果可能就天差地别。空间结构性 (Sparsity & Irregularity)：点云不像像素那样均匀分布，它可能在某些地方密集（比如物体的棱角），在某些地方稀疏（比如一个平面）。你没法像CNN那样用一个固定大小的窗口去“滑动”。为了解决这两个核心痛点，PointNet应运而生。 PointNet：简单粗暴的“大力出奇迹” PointNet是第一个直接处理原始点云的深度学习模型，它的想法堪称“天才般的简单”。核心思想：如何解决“无序性”？ PointNet的作者想：我需要找到一种方法，无论点的顺序怎么打乱，我最后得到的特征都是一样的。这种特性在数学上叫做“对称函数” (Symmetric Function)。常见的对称函数有哪些？求和 (Summation): a+b+c 和 c+b+a 的结果是一样的。求平均 (Average): (a+b+c)/3 和 (c+b+a)/3 的结果是一样的。求最大值 (Max-Pooling): max(a, b, c) 和 max(c, b, a) 的结果是一样的。 PointNet最终选择了 Max-Pooling（最大池化）作为它的核心对称函数。 PointNet工作流程（三步走）：独立特征提取：输入是一堆点的坐标（一个大小为 N x 3 的矩阵，N是点的数量，3是XYZ坐标）。 PointNet对每一个点单独进行特征学习，把它从3维映射到更高维度的空间（比如1024维）。你可以把它想象成给每个点“画像”，让它的信息更丰富。这一步是通过几个共享参数的多层感知机（MLP）完成的。全局特征聚合（关键一步）：现在我们有N个1024维的特征向量了。 PointNet在这些特征向量的每一个维度上做一次Max-Pooling。也就是说，在第一个维度上，从N个点中选出最大值；在第二个维度上，也选出最大值……以此类推。做完之后，N个点的特征就被“压”成了一个1024维的全局特征向量。这个向量代表了整个点云的“样子”。因为Max-Pooling是无序的，所以无论输入点的顺序如何，这个全局特征都是不变的！输出结果：最后，用这个全局特征向量去做具体的任务，比如接一个分类器判断这个点云是什么物体（桌子？椅子？），或者做一个分割器判断每个点属于物体的哪个部分。 # PointNet用于分类任务的伪代码 function pointnet_classification(point_cloud): # point_cloud 是一组N个点 {p1, p2, ..., pN} # 1. 对每个点独立应用MLP，提取高维特征 point_features = [] for point in point_cloud: # 比如把 (x,y,z) 变成一个1024维的特征 feature = MLP(point) point_features.append(feature) # 2. 使用对称函数（Max-Pooling）聚合所有点的特征 # 这是保证顺序不变性的核心！ # 从 [N, 1024] 的特征矩阵，池化成 [1, 1024] 的全局特征 global_feature = max_pool(point_features) # 3. 使用最后的MLP进行分类 prediction_scores = MLP(global_feature) return prediction_scoresPointNet虽然开创了历史，但它的方法太“粗暴”了。它通过Max-Pooling把所有点的信息都揉成一团，形成一个全局特征。这导致它无法感知局部细节。打个比方，PointNet能认出这是一辆车，但它很难分清车轮和车灯的区别，因为它把所有点的特征“一视同仁”地混合了，丢失了点与点之间的邻里关系和局部几何结构。 PointNet++：从“全局”到“局部”的精细化升级为了解决PointNet丢失局部结构的问题，PointNet++被提了出来。它的核心思想非常像我们熟悉的CNN，那就是——层次化特征提取 (Hierarchical Feature Learning)。核心思想：先局部，再整体如果说PointNet是“一口吃成个胖子”，那PointNet++就是“细嚼慢咽”。它不再直接对所有点进行粗暴的全局池化，而是：分片 (Partition)：在点云中选择几个“中心点”。分组 (Grouping)：以每个中心点为核心，在周围画一个“圈”（比如一个球形半径内），把邻近的点组织成一个小局部区域。小PointNet提取局部特征：对每一个小局部区域，使用一个迷你的PointNet来提取这个区域的局部特征。迭代升级：不断重复以上过程。上一层提取的局部特征，会成为下一层分组和提取的输入。这样一来，网络就能从非常小的局部细节（比如桌子腿的棱角），逐渐学习到更大范围的特征（整个桌子腿），最后再到全局特征（整张桌子）。这个核心组件，PointNet++称之为集合抽象层 (Set Abstraction Layer)。一个Set Abstraction Layer的伪代码： # PointNet++ 中一个 Set Abstraction 层的伪代码 function set_abstraction_layer(points, features): # points是输入的点集，features是这些点对应的特征 # 1. 采样层：用最远点采样(FPS)选出一些中心点 centroids = farthest_point_sampling(points) # 2. 分组层：为每个中心点，找到它的邻居点 groups = [] for c in centroids: # 比如在半径r内找邻居 (Ball Query) neighbors = find_neighbors_in_radius(c, points, radius) groups.append(neighbors) # 3. PointNet层：对每个组用一个“迷你PointNet”来提取局部特征 new_features = [] for group in groups: # 注意：在送入迷你PointNet前，会先将邻居点坐标归一化到局部坐标系 local_feature = mini_pointnet_module(group) new_features.append(local_feature) # 输出：新的点（中心点）和它们对应的更高级的特征 return centroids, new_features通过堆叠多个这样的set_abstraction_layer，PointNet++就能像CNN一样，一层层地扩大感受野，从点到线，从线到面，最终理解整个三维物体的复杂结构。如果还没理解，我们来做一个最后的比喻： PointNet：就像全国海选。所有选手（点）都来到一个大舞台上，评委（Max-Pooling）只看一眼，选出最亮眼的那一个（最大特征值）来代表所有人。这个方法简单高效，能快速得到一个总体印象，但忽略了选手们在各自地区（局部）的特色。 PointNet++：就像分级选举。先在每个村里选出村代表（第一层局部特征），然后村代表们再开会选出镇代表（第二层更大范围的特征），镇代表再选出县代表……最后选出国家主席（最终的全局特征）。这个过程更复杂，但能充分保留从基层到高层的各级信息，对情况的把握更精细。特性PointNetPointNet++核心思想对称函数（Max-Pooling）处理无序性层次化特征提取结构感知仅有全局特征，无局部结构信息有局部结构信息，从局部到全局处理方式一步到位，简单粗暴逐层抽象，精细复杂适用场景简单的分类任务，对细节要求不高的场景分割、复杂场景理解等需要局部信息的任务比喻全国海选分级选举写在最后 PointNet和PointNet++是3D点云深度学习的基石。虽然现在已经有了更多更复杂的模型，但它们的思想——如何解决无序性、如何学习局部和全局特征——依然在影响着后续的研究。对于初学者来说，不必急于深究代码的每一个细节，最重要的是理解其背后的思想。

深度学习 # PointNet # PointNet++

admin 6月28日

0 1,179 2

PyTorch梯度裁剪完全实用指南：原理、场景、优缺点、max_norm值估计方法

深度学习 # PyTorch梯度裁剪 # 梯度裁剪max_norm设置 # torch.nn.utils.clip_grad_norm_# 深度学习训练稳定技巧 # 梯度爆炸解决方法 # 如何选择max_norm值 # PyTorch训练技巧 # PyTorch中clip_grad_norm_用法 # 梯度裁剪max_norm多少合适 # 深度学习梯度范数控制 # RNN/LSTM训练稳定方法

admin 6月3日

0 550 2

PyTorch梯度裁剪完全实用指南：原理、场景、优缺点、max_norm值估计方法

在深度学习模型的训练过程中，经常会遇到一个棘手的问题——梯度爆炸 (Exploding Gradients)。梯度爆炸会导致模型权重更新过大，使得学习过程极其不稳定，甚至导致损失函数变为 NaN (Not a Number)，训练无法继续。为了解决这个问题，梯度裁剪 (Gradient Clipping) 应运而生，它是一种简单而有效的技术，能够帮助我们约束梯度的大小，从而稳定训练过程。本文将详细介绍 PyTorch 中梯度裁剪的使用，特别是 torch.nn.utils.clip_grad_norm_ 函数中 max_norm 参数的含义和设置，并探讨如何估计一个合适的 max_norm 值，以及该技巧的优缺点。什么是梯度裁剪？为什么需要它？想象一下你在爬山，目标是山谷的最低点（损失函数的最小值）。每一步的大小和方向由梯度决定。如果某一步的梯度特别大（比如你突然踩到了一块非常陡峭的斜坡），你可能会一下子“冲”出很远，甚至越过最低点，或者跑到不相关的区域，导致你离目标越来越远。在神经网络训练中，特别是在循环神经网络 (RNNs)、长短期记忆网络 (LSTMs)、门控循环单元 (GRUs) 以及包含深层结构的模型中，梯度可能会在反向传播过程中累积变得非常大。这就是梯度爆炸。典型症状：损失值突然变成NaN或无穷大训练过程中损失剧烈震荡模型参数更新幅度异常巨大梯度裁剪通过设定一个阈值，当梯度的范数（L2 范数或其他范数）超过这个阈值时，就将其缩放到阈值以内。这样可以防止单次更新步长过大，使得训练过程更加平稳。梯度裁剪：优雅的解决方案梯度裁剪就像给你的训练过程装上了"安全带"。它的核心思想很简单：当梯度太大时，按比例缩小它，但保持方向不变。工作原理计算所有参数梯度的整体范数（通常是L2范数）如果范数超过预设阈值max_norm，按比例缩放所有梯度确保缩放后的范数恰好等于max_norm 数学公式：如果 total_norm > max_norm： clipped_grad = grad × (max_norm / total_norm) 否则： clipped_grad = grad # 保持不变PyTorch中的基本用法 PyTorch 提供了一个非常方便的函数来实现梯度裁剪：torch.nn.utils.clip_grad_norm_。 import torch import torch.nn as nn # 假设你有一个模型 model = nn.Linear(10, 1) # 假设你有一个优化器 optimizer = torch.optim.SGD(model.parameters(), lr=0.01) # 假设你有一些输入和目标 inputs = torch.randn(5, 10) targets = torch.randn(5, 1) # 前向传播 outputs = model(inputs) loss = nn.MSELoss()(outputs, targets) # 反向传播计算梯度 optimizer.zero_grad() loss.backward() # --- 梯度裁剪 --- # 在优化器更新权重之前进行梯度裁剪 max_norm = 20.0 # 这是我们讨论的重点参数 torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=max_norm) # ----------------- # 使用裁剪后的梯度更新权重 optimizer.step()torch.nn.utils.clip_grad_norm_ 的关键参数： parameters: 一个可迭代的张量序列，通常是 model.parameters()，包含了模型中所有需要更新梯度的参数。 max_norm (float or int): 梯度的最大范数。如果所有参数的梯度向量拼接后的整体 L2 范数超过这个值，梯度将被重新缩放，使得其范数等于 max_norm。 norm_type (float or int, optional): 指定计算范数的类型。默认为 2，即 L2 范数。也可以使用其他 p-范数。 max_norm=20 的含义：当设置 max_norm=20 时，意味着在调用 clip_grad_norm_ 后，模型所有参数的梯度向量组合起来计算其 L2 范数，如果这个范数大于 20，那么所有的梯度值都会被按比例缩小，使得最终的 L2 范数恰好等于 20。如果原始范数小于或等于 20，则梯度保持不变。如何估计 max_norm 的值？选择一个合适的 max_norm 值至关重要。太小的值可能会过度抑制梯度，减慢学习速度或阻止模型学习到必要的特征；太大的值可能无法有效防止梯度爆炸。这里提供三种科学的方法：（1）梯度监控法（推荐） def find_optimal_max_norm(model, dataloader, criterion, num_batches=100): """通过监控梯度范数分布来确定最佳max_norm""" gradient_norms = [] for i, (batch_data, batch_labels) in enumerate(dataloader): if i >= num_batches: break model.zero_grad() outputs = model(batch_data) loss = criterion(outputs, batch_labels) loss.backward() # 计算梯度范数 total_norm = 0 for p in model.parameters(): if p.grad is not None: param_norm = p.grad.data.norm(2) total_norm += param_norm.item() ** 2 total_norm = total_norm ** 0.5 gradient_norms.append(total_norm) # 统计分析 import numpy as np norms = np.array(gradient_norms) print(f"梯度范数统计:") print(f" 平均值: {np.mean(norms):.2f}") print(f" 中位数: {np.median(norms):.2f}") print(f" 95分位数: {np.percentile(norms, 95):.2f}") print(f" 最大值: {np.max(norms):.2f}") # 建议的max_norm值 suggested_max_norm = np.percentile(norms, 90) # 90分位数 print(f"建议的max_norm: {suggested_max_norm:.2f}") return suggested_max_norm（2）不同任务的经验值任务类型推荐max_norm范围说明文本分类0.5 - 2.0较小的网络，梯度相对稳定机器翻译1.0 - 5.0序列到序列模型语言模型0.25 - 1.0大型模型，需要更严格控制图像分类2.0 - 10.0CNN通常梯度较大强化学习0.5 - 2.0策略梯度方法（以上范围仅供参考，具体问题需要具体分析）（3）自适应调整策略 class AdaptiveGradientClipper: def __init__(self, initial_max_norm=1.0, patience=10): self.max_norm = initial_max_norm self.patience = patience self.wait = 0 self.best_loss = float('inf') def clip_and_adjust(self, model, loss): # 执行梯度裁剪 total_norm = torch.nn.utils.clip_grad_norm_( model.parameters(), max_norm=self.max_norm ) # 根据损失调整max_norm if loss < self.best_loss: self.best_loss = loss self.wait = 0 else: self.wait += 1 if self.wait >= self.patience: # 如果损失没有改善，适当放松限制 self.max_norm *= 1.1 self.wait = 0 print(f"调整max_norm为: {self.max_norm:.2f}") return total_norm梯度裁剪的优势与局限（1）优点防止梯度爆炸：这是最主要和最直接的优点。通过限制梯度的大小，可以防止权重更新过大，从而避免损失函数振荡或发散。提高训练稳定性：使得训练过程更加平滑，减少了因梯度突变导致的训练中断风险。可能允许使用更大的学习率：由于梯度被约束，有时可以尝试使用稍大的学习率而不用担心训练发散，这可能会加速收敛。有助于处理RNN等深层结构：在这些网络中，梯度更容易通过长序列或多层传播而爆炸或消失。梯度裁剪对缓解梯度爆炸特别有效。（2）缺点引入新的超参数： max_norm (以及 norm_type) 是需要仔细调整的超参数。不合适的选择可能会损害模型性能。可能扭曲梯度方向：梯度裁剪（尤其是 clip_grad_norm_）是按比例缩放整个梯度向量，所以它保持了梯度的方向。但 clip_grad_value_ (另一种裁剪方式，对每个梯度分量进行裁剪) 则可能会改变梯度方向。即使是 clip_grad_norm_，如果 max_norm 设置得过小，也可能使得模型无法学到某些需要较大梯度才能驱动的更新。治标不治本（某种程度上）：梯度裁剪处理的是梯度爆炸的症状，而不是其根本原因（如不良的权重初始化、不合适的激活函数或网络结构设计）。更好的权重初始化方法（如 Xavier, Kaiming 初始化）、使用 ReLU 及其变体、Batch Normalization 或更优化的网络架构（如 ResNet 中的残差连接）可以从根本上减少梯度爆炸的风险。可能减慢学习速度：如果 max_norm 设置得过低，会限制模型学习的速度，因为它限制了参数更新的幅度。总结梯度裁剪，特别是通过 torch.nn.utils.clip_grad_norm_ 实现的基于范数的裁剪，是深度学习训练工具箱中一个非常有用的技巧。它通过限制梯度的最大范数（例如 max_norm=20）来防止梯度爆炸，从而提高训练的稳定性。选择合适的 max_norm 值需要结合经验、梯度监控和实验调整。虽然它有一些潜在的缺点，但在许多情况下，梯度裁剪是确保模型训练顺利进行的关键步骤，尤其是在处理复杂和深层网络结构时。记住，它通常与其他稳定训练的技术（如合适的初始化、归一化层等）结合使用，以达到最佳效果。记住，梯度裁剪不是万能药，但它确实是让你的模型训练"稳如磐石"的重要工具。在下一个项目中试试看，相信你会发现它的价值！

踩了很多坑，终于顺利在Windows环境下自编译安装了Pytorch3D库（PyTorch2.4+支持GPU）

深度学习 # 多版本兼容 # Pytorch3D安装 # Pytorch3D Windows安装 # Pytorch3D CUDA设置 # Pytorch3D测试代码 # Windows环境下安装Pytorch3D # Pytorch3D GPU支持 # Not compiled with GPU support # Pytorch3D编译问题

admin 5月27日

0 333 0

踩了很多坑，终于顺利在Windows环境下自编译安装了Pytorch3D库（PyTorch2.4+支持GPU）

本文详细记录了作者在Windows环境下自编译安装Pytorch3D库（支持GPU）的完整过程，分享了安装中遇到的各种问题及解决方法。作者首先指出使用conda安装Linux打包的Pytorch3D在Windows下无法使用，随后解决了显卡支持问题，通过设置CUDA_HOME和FORCE_CUDA=1消除了RuntimeError: Not compiled with GPU support错误。文章列出了安装所需的基本条件（Python 3.10、PyTorch 2.4.0、gcc & g++ ≥ 4.9），并提供了安装PyTorch、VS2022以及从GitHub下载Pytorch3D源码的步骤。为应对国内网络问题，作者还分享了蓝奏云网盘链接。编译过程中，配置Visual Studio环境变量尤为关键，最终通过测试代码验证了Pytorch3D的安装成功及GPU支持。作者最后感慨，虽然Windows环境下折腾较多，但也锻炼了技术能力。踩坑1 在anaconda.org里下载的压缩包然后使用conda进行安装在win10下是可以安装成功的，但是不能被使用，实际原因是这是基于Linux打包的，根本不适用windows。 anaconda.orgl图片踩坑2 关于显卡支持的事。第一次安装根据教程之后运行代码出现RuntimeError: Not compiled with GPU support. 于是找了找教程，发现很多人都说的不一样，不过设置了了环境变量CUDA_HOME以及FORCE_CUDA=1成功解决问题。 Pytorch3d基本条件 Python 3.10 PyTorch 2.4.0 gcc & g++ ≥ 4.9 Pytorch3d基本条件图片安装PyTorch 可以使用miniconda或者anaconda新建一个环境，例如tt： conda create -n tt python=3.10 conda activate tt然后安装Pytorch2.4+CUDA12.1： conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.1 -c pytorch -c nvidia安装VS2022 去VS官网下载安装即可：Visual Studio 2022 - 官网 Visual Studio 2022图片安装的时候勾选“使用C++的桌面开发”即可。使用C++的桌面开发图片安装完成后会有这些东西：安装完成后图片下载Pytorch3d 在Pytorch3d的Github上下载ZIP即可。由于国内的网络环境不稳定，这里我提供了完整的压缩包的蓝奏云网盘链接： pytorch3d-github.zip - 蓝奏云网盘 Pytorch3d的Github图片我下载到了D盘进行解压，得到下面的路径： D盘进行解压图片注意：新版本的pytorch3d不用修改作者的代码，要不然一直编译不出来。编译Pytorch3d Pytorch3d图片搜索x64 Native Tools Command Prompt x64 Native Tools Command Prompt图片首先进入pytorch目录下： cd D:\pytorch3d-github\pytorch3d-main先配置visual studio环境变量: set DISTUTILS_USE_SDK=1 set MSSdk=1 set FORCE_CUDA=1tips：FORCE_CUDA=1是为了防止出现RuntimeError: Not compiled with GPU support.，不过前提是你已经成功安装了CUDA并且设置了CUDA_HOME系统变量。这些都是安装GPU驱动以及Pytorch-GPU版本的前戏操作，这里我就不再赘述。系统变量图片然后使用虚拟环境里的python进行安装： D:\miniconda3\envs\tt\python.exe setup.py install（图片里漏了FORCE_CUDA）虚拟环境里的python进行安装图片然后就是等待了，完成安装后显示如下：完成安装后图片编译好了可以用conda的命令框检查环境里面有没有这个包： conda list pytorch3d安装了pytorch3d图片这时已经成果安装了pytorch3d。验证pytorch3d 为了验证你的pytorch3d以及GPU是否可用，下面给了一个测试代码： import torch import matplotlib.pyplot as plt from pytorch3d.structures import Meshes from pytorch3d.utils import ico_sphere from pytorch3d.renderer import ( FoVPerspectiveCameras, RasterizationSettings, MeshRenderer, MeshRasterizer, SoftPhongShader, PointLights, TexturesVertex, look_at_view_transform, ) # 设置设备 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") print(f"Using device: {device}") # 创建单位球体网格 mesh = ico_sphere(level=3, device=device) # 细节更高 verts_rgb = torch.ones_like(mesh.verts_packed())[None] * 0.5 # 灰色 textures = TexturesVertex(verts_features=verts_rgb.to(device)) mesh.textures = textures # 设置摄像头视角（距离 2.7，朝向原点） R, T = look_at_view_transform(dist=2.7, elev=10.0, azim=45.0) cameras = FoVPerspectiveCameras(device=device, R=R, T=T) # 设置光源（从侧上方照射） lights = PointLights(device=device, location=[[2.0, 2.0, 2.0]]) # 光栅化设置 raster_settings = RasterizationSettings( image_size=512, blur_radius=0.0, faces_per_pixel=1, ) # 创建渲染器 renderer = MeshRenderer( rasterizer=MeshRasterizer( cameras=cameras, raster_settings=raster_settings, ), shader=SoftPhongShader( device=device, cameras=cameras, lights=lights, ) ) # 渲染图像 images = renderer(mesh) # 显示图像 plt.figure(figsize=(6, 6)) plt.imshow(images[0, ..., :3].cpu().numpy()) plt.title("Rendered 3D Sphere") plt.axis("off") plt.show()运行结果：Using device: cuda:0 运行结果图片一点感受其实搞深度学习开发很多时候Ubuntu之类的环境可能更加合适，Windows虽然大部分时候都能满足使用，但是有时候比较费技术也比较花时间去折腾。不过既然都选择搞技术了，折腾点也没啥，就当练技术了。

三维视觉深度学习模型训练中归一化对结果的影响研究

深度学习 # 中国开发者开源项目 # 三维视觉 # 深度学习 # 归一化技术 # 点云处理 # 模型训练优化 # 批量归一化

admin 5月1日

0 21 0

三维视觉深度学习模型训练中归一化对结果的影响研究

三维视觉是计算机视觉领域中一个快速发展且至关重要的分支，其在自动驾驶、机器人技术和医疗成像等众多应用中发挥着越来越重要的作用。为了处理和理解复杂的三维数据，研究人员日益依赖于深度学习模型。这些模型，例如用于点云数据的 PointNet 和 PointNet++，用于体素数据的 VoxelNet，以及三维卷积神经网络（3D CNNs），在三维物体分类、分割和场景理解等任务中取得了显著的成功。然而，训练这些深度神经网络并非易事，常常会遇到梯度消失或爆炸、收敛速度慢以及对超参数初始化敏感等问题。为了应对这些挑战，归一化技术已成为训练稳定且高效的深度学习模型的关键组成部分。本文旨在深入探讨归一化对三维视觉深度学习模型训练结果的影响。文将考察各种归一化方法，并分析它们在不同的三维模型架构和应用中的作用。通过对现有研究的综合分析，本文旨在为研究人员和从业人员提供关于何时以及如何有效地利用归一化技术来优化其三维视觉深度学习模型的训练过程的全面理解。关于归一化具体的实现，可以参考文章：《点云数据标准化（归一化）：常用方法及可视化对比的Python实现》归一化基本原理及目的在深度学习的背景下，归一化是指对输入数据或神经网络层激活值进行尺度变换和平移的过程，使其落入一个标准的范围或服从特定的分布。归一化的总体目标是将特征置于相似的尺度或分布上，确保每个特征对学习过程的贡献是成比例的，并防止具有较大数值范围的特征在学习过程中占据主导地位。归一化的主要目的如下：（1）加速收敛：归一化有助于优化算法，特别是梯度下降，通过创建更良性的损失函数地形来更快地收敛，从而简化优化过程并允许更大的梯度步长。当不同的特征具有不同的数值范围时，梯度下降可能会在损失函数上发生“弹跳”，从而减缓学习速度。虽然诸如 Adam 和 Adagrad 等更高级的优化器可以通过随时间改变有效学习率来部分缓解这个问题，但归一化仍然提供了额外的益处。通过确保特征处于相似的尺度，损失函数的地形变得更加均匀，使得梯度下降能够更平稳地向最小值移动。如果没有归一化，梯度下降的轨迹可能会发生振荡，需要更多的步骤才能收敛。（2）提高训练稳定性：归一化通过减少内部协变量偏移来提高训练的稳定性。内部协变量偏移是指在训练过程中，由于先前层权重的更新，神经网络层输入分布发生变化。隐藏层激活分布的这种变化就像后续层的“移动目标”，使得学习变得困难。归一化稳定了这些分布，使得每一层能够更独立和高效地学习。稳定的输入分布允许使用更高的学习率而不会导致发散，并使模型对初始化选择的敏感性降低。（3）更好的泛化：归一化可以作为一种正则化形式，通过减少模型对特定激活模式的依赖性，从而巧妙地防止过拟合并提高模型对未见过数据的泛化能力。尤其是在批量归一化中，由于每个小批次统计数据的计算，归一化过程中引入的轻微噪声可以产生类似于 dropout 的正则化效果。（4）避免 NaN 陷阱：归一化有助于防止数值不稳定性问题，例如当特征值非常高并超过浮点精度限制时可能发生的“NaN 陷阱”。（5）学习适当的权重：归一化通过将所有特征置于相似的尺度上，确保模型为每个特征学习适当的权重，防止具有较大数值范围的特征在学习过程中占据主导地位，并确保每个特征都做出成比例的贡献。归一化寻优路线图片归一化技术概述（1）输入归一化在将数据输入网络之前对其进行归一化至关重要，以确保数值大小的统一性并防止具有较大值的特征占据主导地位。常见的输入归一化技术包括最小-最大缩放（归一化）、Z-score 缩放（标准化）、对数缩放等等。（2）批量归一化 (BN) BN 的核心概念是在训练期间对一个小批次内的神经网络层激活值进行归一化，通过计算小批次中每个特征的激活值的均值和方差，然后使用这些统计数据进行归一化。在推理期间，BN 使用在训练期间计算的总体统计数据（运行均值和方差）。BN 的具体优点包括更快的收敛、更高的学习率、可以减少 dropout 需求的正则化效果以及降低对初始化的敏感性。其局限性包括对批次大小的依赖性（如果小批次大小太小，效果可能会降低）以及由于训练和推理统计数据之间的差异可能导致预测困难。（3）层归一化 (LN) LN 对神经网络层中每个单独数据样本的特征进行归一化，而不是跨小批次进行归一化。优点包括适用于各种架构（包括由于可变序列长度而 BN 效果较差的 RNN）、跨不同批次大小的一致性以及一致的训练/推理过程。它常用于 NLP 和 Transformer 网络。（4）实例归一化 (IN) IN 独立地对每个训练样本的每个通道在其空间维度（高度和宽度）上进行归一化，将每个实例视为唯一。优点包括适用于风格迁移和图像生成（其中需要去除实例特定的对比度信息或保留风格）以及独立于批次大小。对于需要批次级统计数据以学习跨数据集的鲁棒特征的任务，它可能效果较差。（5）组归一化 (GN) GN 将通道分成若干组，并在每个组内独立地对特征进行归一化，而不利用批次维度。优点包括对批次大小的灵活性、即使在小批次情况下也能增强模型训练、由于统计数据在样本内组中计算而非常适合分布式训练以及跨各种数据类型的通用性。组的数量 (G) 这个超参数在层归一化 (G=C) 和实例归一化 (G=1) 之间进行插值方面起着作用。技术归一化范围对批次大小的依赖性三维视觉中的典型应用主要优点主要缺点批量归一化小批次内的特征高三维 CNN，体素网络加速收敛，允许更高的学习率，正则化小批次大小依赖性，训练和推理统计数据可能不同层归一化单个样本内的特征低点云模型（当批次大小较小时），序列三维数据适用于可变输入大小，与批次大小无关，训练和推理一致可能不适用于所有类型的三维数据实例归一化单个样本和通道内的空间维度低风格迁移，生成模型保留实例特定的特征，与批次大小无关可能不适用于需要批次级统计数据的任务组归一化每个样本内预定义的通道组低点云模型（当计算资源有限时），小批次大小对批次大小灵活，适用于分布式训练需要调整组的数量在训练三维视觉深度学习模型中的作用（1）对基于点云的模型的影响 PointNet： PointNet 是一种直接使用点云并使用共享 MLP 为每个点学习特征，然后使用最大池化聚合它们的架构。原始 PointNet 架构在输入和特征变换网络（T-net）以及共享 MLP 中使用了批量归一化，以稳定训练并提高收敛速度。归一化有助于使模型对旋转和平移等某些变换保持不变，从而稳定特征学习过程。研究探索了 PointNet 的替代归一化技术，例如上下文归一化，它独立地归一化每个点云，并且在旋转增强的数据集中显示出改进，表明旋转不变性增强。输入归一化对于 PointNet 来说也很重要，以解决数据值范围的巨大差异，这可能会阻碍网络收敛。 PointNet++： PointNet++ 通过学习分层局部特征来构建在 PointNet 之上，它使用多个集合抽象层。批量归一化通常用于 PointNet++ 的集合抽象 (SA) 层中，以归一化在层次结构的每个级别学习的特征。归一化有助于学习局部几何结构并提高对非均匀点密度的鲁棒性。研究表明，PointNet++ 中相对位置归一化（将相对坐标除以邻域半径）的效果可以简化优化并提高性能。组归一化已被用作计算能力有限或小批次大小场景中批量归一化的替代方案，在这种受限环境中显示出提高分类准确性的潜力。PointNorm 中引入的双重归一化（点归一化和反向点归一化）旨在解决 PointNet++ 等架构中采样分组操作后点云的不规则性，展示了最先进的准确性和效率。 PointNet图片（2）对基于体素的模型的影响 VoxelNet 通过将点云划分为三维体素，然后使用体素特征编码 (VFE) 层和后续的三维卷积进行物体检测。批量归一化用于 VFE 层和三维卷积中间层中，以学习每个体素内点的统一特征表示并稳定深度三维 CNN 的训练。归一化有助于 VoxelNet 在 KITTI 等基准测试中实现强大的三维物体检测性能。虽然这些片段没有提供关于在没有批量归一化的情况下训练 VoxelNet 及其影响的具体细节，但该架构的深度和对稳定梯度流的依赖性表明，BN 对于实现其报告的性能可能是至关重要的。其他片段中讨论的在没有归一化的情况下训练深度 CNN 的一般挑战可能也适用于 VoxelNet。 VoxelNet图片（3）对三维卷积神经网络 (3D CNNs) 的影响三维 CNN 的架构和应用包括视频分类、医学图像分析（CT 扫描、MRI）以及来自体积数据的通用三维物体识别。在三维卷积层之后加入批量归一化层是一种标准做法，以通过减少内部协变量偏移来稳定训练，通过允许更高的学习率来加速收敛，并通过提供轻微的正则化效果来改善泛化。归一化有助于管理与三维 CNN 相比二维 CNN 相关的参数数量增加以及显著的内存和计算需求。研究探索了使用和不使用归一化训练三维 CNN 的性能，结果表明，虽然在没有 BN 的情况下进行训练是可能的，但除非采用仔细的初始化和潜在的替代架构，否则验证准确性通常会停留在非常低的水平。经验证据表明，向三维 CNN 添加批量归一化可以显著提高训练速度并获得更高的准确性，通常只需要更少的训练步骤。关于归一化的建议基于现有证据，建议将批量归一化作为训练三维 CNN 和基于体素模型的强大且通常有效的默认选择，因为它在稳定训练和提高各种任务的性能方面取得了广泛的成功。对于基于点云的模型，尤其是在处理可变数量的输入点或在小批量大小下训练时，探索层归一化可能是一个合适的选择，因为在这些情况下，批量归一化可能存在局限性。对于需要保留实例特定特征的三维视觉应用，例如在三维形状的生成模型中或潜在地在涉及场景中单个物体分析的任务中，建议考虑实例归一化。组归一化是一种很有前途的批量归一化替代方案，尤其是在批次大小受到内存限制或三维数据性质限制的情况下，它在批次级和实例级归一化的优点之间提供了平衡。对于有兴趣探索深度学习前沿的研究人员和从业人员，建议研究在没有归一化的情况下训练三维视觉模型的策略，强调需要仔细考虑权重初始化、学习率调度以及可能采用专门的网络架构来缓解与缺少归一化相关的挑战。未来的研究方向可能包括开发专门为不同三维数据表示和三维视觉任务的几何性质量身定制的新型归一化技术，以及继续探索在不依赖传统归一化层的情况下训练高性能三维模型的方法的理论基础。

【Matlab深度学习实战】99.16%高精度交通标志识别系统开发：开源数据集优化+ResNet50迁移学习+App设计全解析（含工程源码）

【Matlab深度学习实战】99.16%高精度交通标志识别系统开发：开源数据集优化+ResNet50迁移学习+App设计全解析（含工程源码）本文详解基于Matlab R2024b的交通标志智能识别系统开发全流程。通过重构消除开源数据集污染与不均衡问题，采用ResNet50迁移学习技术实现50+类别99.16%超高识别准确率。内含完整数据清洗方案、分层抽样策略、Adam优化器参数配置，以及Matlab App Designer开发的交互式识别系统。提供经优化的开源数据集、带注释的工程源码及预训练模型，特别包含GPU加速训练技巧、混淆矩阵可视化方法、F1-score评估体系，助力开发者快速复现论文级实验结果，掌握工业级模型部署技巧。效果视频训练数据前面小栈发布了一个开源数据集：【中国交通标志数据集TSRD下载】上海交大网盘高速下载+58类6164张标注图像但是小栈发现开源的数据集存在一些问题，比如数据污染、数据不均衡的问题，会导致模型不稳定和动荡，因此，小栈对数据集进行了重新的编排。小栈润色后的数据集会和源码一起进行发布和下载。软件环境小栈使用的Matlab是R2024b，如果需要本套资料，建议与小栈保持一致哦，如果可能出现各种不兼容或者报错。训练说明下面对代码进行简单的说明，如果有需要，可以直接使用到您的报告中：首先设定数据集路径及训练超参数，明确使用224×224像素的RGB输入格式。通过imageDatastore加载图像数据并自动继承文件夹名称作为类别标签，采用自定义预处理函数统一调整图像尺寸并确保三通道格式。为保证模型泛化能力，以分层抽样方式将数据集按8:2划分为训练集与测试集，并验证两者标签的一致性，避免测试集出现未知类别。最终统计显示共包含N个交通标志类别，训练集与测试集样本量分别为X和Y。通过augmentedImageDatastore实现实时增强处理。网络架构方面，加载预训练的ResNet50模型后，移除原1000类分类层，替换为与当前任务类别数匹配的全连接层（设置较高10倍学习率因子加速训练），配合新的softmax和分类输出层完成结构调整。采用分阶段训练机制：首先冻结所有卷积层的权重学习率因子（设为0），保持底层特征提取能力不变，仅训练新添加的分类层。通过layerGraph遍历替换所有卷积层的参数更新属性，确保特征提取部分权重冻结。网络分析确认结构调整正确后，配置Adam优化器（初始学习率0.001）、64批次大小及15轮次训练方案，每30批次验证一次测试集准确率，利用GPU加速训练过程。训练显示损失曲线和准确率变化，动态保存最佳模型参数。完成训练后，模型在测试集上执行推理，计算总体分类准确率并生成混淆矩阵。评估指标扩展至类别级的精确度、召回率、F1分数及特异性，通过结构化报表展示各类别性能差异。最终模型以.mat文件格式保存，包含完整网络结构和训练元数据。训练结果本代码在训练的过程中输出了训练的效果：轮迭代经过的时间 (hh:mm:ss)小批量准确度验证准确度小批量损失验证损失基础学习率1100:00:110.00%14.25%4.20927.68760.001013000:01:1385.94%74.69%0.74491.16080.001015000:01:5284.38% 0.7351 0.001016000:02:1887.50%87.85%0.45180.47320.001029000:03:1892.19%93.13%0.25470.23280.0010210000:03:3796.88% 0.1316 0.0010212000:04:1798.44%94.64%0.09220.18600.0010315000:05:1698.44%95.81%0.05470.14250.0010318000:06:1495.31%95.14%0.15650.16840.0010320000:06:5296.88% 0.1119 0.0010321000:07:1598.44%96.81%0.05270.11680.0010424000:08:1598.44%96.65%0.04430.13630.0010425000:08:3396.88% 0.0663 0.0010427000:09:1398.44%96.31%0.10220.16350.0010530000:10:13100.00%97.40%0.02430.11470.0010533000:11:1196.88%95.64%0.08880.19350.0010535000:11:47100.00% 0.0246 0.0010536000:12:1092.19%95.31%0.16060.18220.0010639000:13:0895.31%97.23%0.14050.15750.0010640000:13:2698.44% 0.0218 0.0010642000:14:0796.88%97.15%0.07800.10280.0010745000:15:07100.00%97.99%0.00310.09660.0010748000:16:0893.75%97.90%0.17250.10110.0010750000:16:43100.00% 0.0019 0.0010751000:17:0698.44%98.41%0.03910.08830.0010854000:18:04100.00%97.40%0.00090.09740.0010855000:18:22100.00% 0.0006 0.0010857000:19:0098.44%97.82%0.05370.08090.0010960000:19:5998.44%97.82%0.31310.12600.0010963000:20:57100.00%94.22%0.00190.19950.0010965000:21:33100.00% 0.0283 0.0010966000:21:5895.31%96.23%0.13730.17650.00101069000:22:56100.00%96.06%0.00040.16650.00101070000:23:1498.44% 0.0493 0.00101072000:23:5598.44%96.73%0.04940.13380.00101175000:24:5698.44%97.49%0.03780.14180.00101178000:25:5496.88%96.98%0.13190.10400.00101180000:26:29100.00% 0.0011 0.00101181000:26:5198.44%96.98%0.05850.21320.00101284000:27:4996.88%98.24%0.04860.07660.00101285000:28:0796.88% 0.1766 0.00101287000:28:4696.88%97.49%0.09580.09320.00101390000:29:4395.31%96.14%0.09570.17840.00101393000:30:51100.00%98.49%0.00030.05000.00101395000:31:2798.44% 0.1496 0.00101396000:31:50100.00%98.58%0.00650.06150.00101499000:32:48100.00%98.83%0.01100.05890.001014100000:33:06100.00% 0.0024 0.001014102000:33:46100.00%98.58%0.00390.06520.001015105000:34:46100.00%98.16%0.01130.06270.001015108000:35:48100.00%99.08%0.00050.04320.001015110000:36:25100.00% 0.0034 0.001015111000:36:48100.00%99.16%0.00750.04090.0010训练结束: 已完成最大轮数。模型保存完成评估模型性能... 测试集准确率: 99.08% 准确率：准确率曲线图片 Loss值： Loss值图片完整训练进度结果：训练进度结果图片 Matlab App Designer使用启动软件之后的界面是这个样子：软件界面图片完成识别后的界面：完成识别后的界面图片识别结果及日志记录：识别结果及日志记录图片下载地址：包含的内容：包含的内容图片购买地址：【Matlab App Designer】基于Matlab卷积深度学习的交通标志识别|数据清洗+模型优化，准确率99%

深度学习 # Matlab交通标志识别 # 开源数据集优化 # ResNet50迁移学习 # 高精度目标检测 # Matlab App Designer # 模型部署技巧 # 数据清洗方案 # 混淆矩阵分析 # 如何用Matlab训练深度学习 # 如何用Matlab识别交通标识

admin 4月13日

0 90 0

【中国交通标志数据集TSRD下载】上海交大网盘高速下载+58类6164张标注图像

【中国交通标志数据集TSRD下载】上海交大网盘高速下载+58类6164张标注图像本文详细解析中国交通标志识别基准数据集TSRD，提供官方下载与上海交通大学网盘高速下载双通道。该数据集包含58类共6164张高质量标注图像（4170训练集+1994测试集），每张图片均提供精准坐标标注文件，特别适合交通标志识别算法开发、自动驾驶模型训练及计算机视觉研究。内含数据目录结构解析、标注文件格式说明，助您快速开展深度学习实战。数据集说明 TSRD包括6164幅交通标志图像，包含58个标志类别。图像分为训练数据库和测试数据库两个数据库分库。训练数据库包括4170幅图像，测试数据库包含1994幅图像。所有图像都标注了标志和类别的四个坐标。数据集下载（1）官网下载地址： TSRD-Train TSRD-Test TSRD-Train Annotation TSRD-Test Annotation （2）上海交通大学网盘地址： Chinese Traffic Sign Database - 上交网盘版包含的内容图片数据说明我看了看下载的数据集，分类使用前面的000、001这样进行区分的，一共是58个标志类别，因此是000~057，一共58个。数据集里的图片关于标注文件（TSRD-Test Annotation.zip和TSRD-Train Annotation.zip）中内容的解释：当前格式应为：文件名; 图像宽度; 图像高度; 左上角x; 左上角y; 右下角x; 右下角x; 类别标注的数据集图片

深度学习 # 中国交通标志数据集 # TSRD数据集下载 # 自动驾驶训练数据 # 计算机视觉实战 # 交通标志识别算法 # 上海交大网盘资源 # 深度学习标注数据 # 目标检测训练集 # AI模型开发数据集 # 开源计算机视觉资源

admin 4月11日

0 272 0