基于机器学习的多AUV路径规划关键技术研究

申报人：洪传乐申报日期：2024-04-06

基本情况

所属批次:

2024

项目名称:

基于机器学习的多AUV路径规划关键技术研究学生选题

项目类型:

创新训练项目

所属学科门类:

工学

所属专业类:

计算机类

项目来源名称:

教师科研项目选题

项目归属学院:

项目期限:

一年期

项目简介:

近年来，随着海洋经济地位与战略地位的提高，海洋探索已经成为各国重点研究的方向。AUV作为人类探索海洋的工具，需要通过路径规划决策方案完成水下任务。现阶段，相较于单一的AUV任务执行能力受限的问题，多AUV协作能有效应对目前水下环境的特殊性、任务的复杂性所带来的挑战。然而，多AUV在应对协同路径规划与决策方面还存在着一定的难处。同时，多AUV路径规划也需要一套更精确的定位系统来保证其航行的安全性和稳定性。因此，本项目在多AUV协同和机器学习算法的基础上，分别对AUV全局和局部路径设计更智能、收敛性更快的路径规划算法。同时，在路径规划的基础上，利用多源海洋信息，提高多AUV水下定位和循迹精度。最终，构建出一套高效、安全、智能的路径规划与水下定位系统。

负责人曾经参与科研的情况:

无

指导教师承担科研课题情况:

1.国家自然科学基金委员会，青年科学基金项目，UASNs中面向虫洞击和监听攻击的源位置隐私保护关键技术研究，2022-01-01至2024-12-3。

2.中国博士后科学基金第71批面上资助一等，海战场景下面向监听攻击的动静态源节点位置隐私保护关键技术研究，已结题。

指导教师对本项目的支持情况:

项目前期，指导老师提供选题和创新点思路，指导确定选题。和团队成员每周开例会听汇报文献研读成果，并作选题背景知识方面的指导，给团队成员答疑解惑，帮助团队确立了项目的整体研究思路。项目中期，指导老师指导团队进行编程和建模的学习，对算法的模拟和数据的处理提出修改自己的建议，保证了本项目的顺利开展。项目后期，指导老师指导团队规范撰写专利，在项目成果展示方面给予帮助，保证本项目按时且高质量结题。

项目级别:

校级

项目成员

序号	学生	所属学院	专业	年级	项目中的分工	成员类型
1	洪传乐	港口海岸与近海工程学院	船舶与海洋工程	2022	统筹工作、编写程序、专利撰写	第一主持人
2	刘启朝	港口海岸与近海工程学院	海洋资源开发技术	2022	数据处理、专利撰写	成员
3	吴挺典	港口海岸与近海工程学院	船舶与海洋工程	2022	编写程序、模型构建	成员
4	张人匀	环境学院	环境工程	2022	数据处理、专利撰写	成员
5	罗子熙	港口海岸与近海工程学院	港口航道与海岸工程	2022	编写程序、模型构建	成员

指导教师

序号	教师姓名	所属学院	是否企业导师	教师类型
1	王皓	港口海岸与近海工程学院	否	第一指导教师

立项依据

研究目的:

本项目研究面向海洋探索环境，开展基于机器学习的多AUV路径规划关键技术研究。通过开展优化强化学习算法、动作决策，减小定位误差等方面研究，充分利用多智能体协作和人工智能方法，拓展海洋可探索范围，揭示卡尔曼滤波在海洋实践探索过程中的辅助作用，阐明机器学习与传统算法融合的具体原理，最终形成一套高效，安全，智能的多AUV路径规划关键技术方案。

研究内容:

1.AUV定位与循迹精度优化方法研究

为了确保多AUV能够在水下精确地执行任务，需要对AUV进行水下定位以及精确的循迹控制。鉴于单一的导航系统无法实现对AUV的高精度定位，滤波通常被用于提高水下跟踪定位的精度和可靠性。由于水下环境的突变情况较多，在水下定位下滤波器的估计值会出现阶段性的偏差过大。所以，为提升AUV定位与循迹精度，研究AUV定位与循迹精度的优化方法。

2.AUV全局路径规划优化方法研究

为使多AUV在规定的任务区域内搜寻一条可达任务目标点的安全无碰撞路径，需基于已有的航行海图和目标点位置等信息进行全局路径规划。在此基础上，为优化全局路径规划精度和效率，减少多AUV在水下移动过程中的能耗，提升多AUV完成任务的效率，研究AUV全局路径规划优化方法。

3.基于深度强化学习的AUV局部路径规划研究

在实际水环境中，AUV的移动路径会受到动静态障碍物的影响。为了避开障碍物，AUV通过传感器等设备来获取环境信息，再利用环境信息进行局部路径规划，以此快速发现障碍物并做出避障动作。同时，传统的强化学习算法只能单一地处理连续或者离散动作，而深度强化学习可以很好地解决离散连续动作空间的问题，所以研究基于深度强化学习的AUV局部路径规划。

国、内外研究现状和发展动态:

海洋拥有着丰富的资源以及巨大的探索前景。21世纪，可以称之为是海洋的世纪。随着海洋经济地位与战略地位的提高，它在国家利益竞争中占有愈发重要的地位[1]。海洋是诸多强国较量的角斗场，失去海洋的支撑，就难以在竞争中脱颖而出。因此，重视海洋的开发，先发制人，在博弈上赢得足够的砝码是十分必要的。

自主水下航行器（Autonomous Underwater Vehicle，AUV）是一种依靠自身携带能源自主航行，可根据搭载不同的载荷执行多种任务的无人水下航行器（UUV）[2]。作为人类探索海洋的工具，AUV是先进机器人技术在水下的特殊应用，是机械学科与信息学科相结合的前沿技术领域。AUV的研究和广泛应用对于充分利用自然资源、发展国民经济具有十分重要的现实意义。远离母船或岸基平台巡航作业的AUV也会因其导航、控制系统的测量计算能力而制约AUV的实际效能，其中自主导航与智能控制已成为决定未来AUV应用的关键技术。作为体现AUV与外部环境进行交互的能力的重要部分，路径规划水平是衡量AUV工作效能、保证航行安全的关键[3]。

在世界各国AUV的初显成果时，我国才开始起步研究，且这种研究也仅仅集中在少数高校和研究所。国外AUV发展以美国、俄罗斯、英国为代表，从20世纪50年代开始对水下机器人进行大力发展，距今已有多个显著成果。

路径规划是自主式移动机器人的一个重要组成部分，它的任务就是在具有障碍物的环境内，按照一定的评价标准，寻找一条从起始状态（包括位置和姿态）到达目标状态（包括位置和姿态）的无碰路径[4]。路径规划算法分为传统规划算法和智能规划算法。

常见的传统规划算法有：人工势场法、A*算法等。人工势场法在环境中抽象出一个虚拟力场，环境中目标、障碍对AUV分别产生的一定大小的引力和斥力，以其合力引导AUV的运动。A*算法通过不断搜索靠近目标点的路径来获得机器人的移动路径。传统算法对环境空间变化适应能力较差，同时为了优化则又大大降低了算法通用性。

智能规划算法有：粒子群算法、蚁群算法、神经网络算法、遗传算法等。粒子群算法的思想源于对鸟群觅食行为的研究，鸟群通过集体的信息共享使群体找到最优的目的地。蚁群算法（Ant Clony Algorithm，ACA）根据蚂蚁行进时选择信息素浓度高的路径并释放的信息素的正反馈的作用找出最优路径[5]。神经网络中神经元与环境模型中位置单元一一对应，环境中障碍物信息作为输入，通过神经元之间连接和计算最终得出一条较优路径[6]。遗传算法模拟自然选择和自然遗传过程中发生的繁殖、交叉和基因突变现象，在每次迭代中都保留一组候选解，并按某种指标从候选解中选取较优的个体，利用遗传算子(选择、交叉和变异)对这些个体进行组合，产生新一代的候选解群，重复此过程，直到满足某种收敛指标为止[7]。

强化学习是机器学习的一个领域。当下科学发展阶段，强化学习的应用研究已经日益发展壮大，强化学习在人工智能领域中已经成为一个重要的分支。在整个强化学习过程中，被控对象专注于通过与环境交互获得奖励，整体以“试错”的方式学习来指导自身行为动作，目标是使被控对象获得最大奖励回报，强化学习同时也被应用到水下机器人的路径跟踪问题上来达到理想的控制跟踪效果。

Wu等人采用改进的强化学习方法，针对水下环境设计了一种新的奖励函数来提高学习能力[8]，Zhang等人设计了一种交互式的强化学习控制器，通过互动式强化学习方法克服了传统强化学习中奖励稀少，学习效率低的缺点，结合人为奖励以及环境奖励加速强化学习算法的收敛速度[9]，Carlucho等人使用了一种无模型的方法，其中原始传感器信息被用作策略网络的输入，该网络的输出直接映射到推进器。此外，采用自适应目标驱动体系结构使智能体能够一致地到达可变的路径点[10]。Jiang等人提出了一种新的基于元强化学习的AUV轨迹跟踪控制方案，用于未知时变动态情况下的AUV轨迹跟踪控制。提出了一种新颖的带有注意模块的策略网络，用于提取AUV动态的隐藏信息，并建立了时变动力学仿真环境，具有一定的抗干扰能力[11]。与现有基于强化学习的控制方法仅使用单个控制器控制AUV运动不同，Wang等人提出了一种基于深度强化学习的路径跟随控制方法[12]。Hadi B等人提出了一种基于强化学习的自适应运动规划和避障技术，研究采用了一种双延迟深度确定性策略算法，并开发了一个全面的奖励函数，该系统对洋流扰动具有较强的鲁棒性[13]。

当下科学研究的主要着手点是如何提升控制效果与如何使其具备较强的抗干扰能力。传统的控制方法学习能力较差，且主要集中在解决基于精确动力学模型的前提下的AUV控制问题上，因此未来水下机器人需要具有对接下来的动作应该有一定的预判容错能力，目前在强化学习方面的发展显示了机器人技术应用的良好结果，特别是水下机器人可以受益于这种新技术，可实现实时解决问题的自适应行为[14]。

在路径规划的同时还要时刻注意调整AUV的运动控制。AUV的运动控制问题已经有很多解决方案，传统的控制方法包括:PID、反步法、滑模控制、模糊控制、模型预测控制等，王晓伟等[15]利用非线性反步法设计了滑模控制器，结合动态切换半径实现了三维直线路径跟踪控制器，刘钰晴等[16]针对未知扰动以及执行器饱和，使用滤波器对不确定性和动态扰动进行估计，保证了系统中信号有界，简化了反步控制器的设计难度。Xia等[17]提出改进的视线制导率(line of sight，LOS)，结合李雅普诺夫方法设计了反馈动力学控制率，采用自适应终端滑模方法来提高跟踪性能，并引入模糊的参数优化解决了抖振问题。Jwa等[18]考虑海洋环境的非线性和强耦合性，设计了一种多策略融合的AUV控制方法，并引入延迟方案避免频繁切换导致的抖振。Zhang等[19]用反步法和李雅普诺夫理论设计了运动学控制器，并通过基于神经网络的自适应方法近似误差和海流扰动。Fang等[20]提出一种增益观测器结合径向基函数神经网络避免了复杂的计算，通过反步法设计了动力学和运动学控制器。虽然传统的控制方法已经取得很多成果，但是多基于数学模型简化，控制器需要复杂的数学推导。

同时，AUV路径规划也需考虑水下协同定位问题。协同定位概念最初是由日本的Ryo Kurazume和Shigemi Nagata两人在1994年的《Cooperative positioning with multiple robots》文章中首先提出来的。应用于机器人定位环境中，当机器人长距离移动或是遇到不平坦路面导致轮子转动与路程不匹配时，机器人内部的定位出现误差，于是在没有路标的环境下，通过协同定位来进行精确定位。这种技术的基本思想如下：每个机器人重复移动和停止动作，并作为另一个机器人的路标。以这种方式，整个组合的多个机器人在前进和作业的同时，也能够获得其位置信息，这提供了高精度的定位[21]。

多AUV协同导航正是基于地面移动机器人的思想，通过定位信息传递与相对距离测量实现协同导航。但是，由于水面环境与陆地完全不同，不能采用与陆地机器人相同的通讯手段。多AUV协同定位时，AUV间是通过水声通信装置发送彼此的位置信息并同时测量通信双方的相对距离，通过信息融合对自身定位进行修正，提升AUV的定位精度[22]。但精度有限，故需要配合其它算法。

卡尔曼滤波(Kalman filter，KF)是一种基于贝叶斯滤波理论的方法类型，该方法是一种以线性、无偏、最小方差为原则的最优估计算法[23]。卡尔曼滤波的核心思想为“预测+修正”，目前已广泛用于各种低速运动物体的状态预测估计。在水下导航中，常用的方法主要有KF、自适应卡尔曼滤波法(adaptive Kalman filter，AKF)、扩展卡尔曼滤波法(extended Kalman filter，EKF)、无迹卡尔曼滤波法(unscented Kalman filter，UKF)和容积卡尔曼滤波法(cubature Kalman filter，CKF)[24]。

目前，AUV在海洋探测和调查、海洋资源开发、海洋环境监测、海洋军事应用、海洋科学研究等领域中发挥的作用越来越显著。所以发展AUV具有重要意义，有助于推动海洋事业的发展和人类对海洋的深入了解。而基于强化学习的路径规划方法在AUV路径规划方面相较于其它路径规划方法具有显著的优势，为AUV寻找最佳路径提供了更好的方法。基于此，本项目拟结合强化学习等方法寻求更快、更好、更方便的AUV移动路径。

附主要参考文献

[1] Sahoo A，Dwivedy S K，Robi P S.Advancements in the Field of Autonomous Underwater Vehicle[J].Ocean Engineering，2019，181（7）：145-160.

[2] 高剑，张福斌.无人水下航行器控制系统[M].西安工业大学出版社，2018:1-9

[3] 周帅，王征，杨洋等.自主水下航行器路径规划技术综述及展望[J].舰船电子工程，2023，43(03):1-6.

[4] 袁曾任，姜焕东.智能移动式机器人的一种全局路径规划方法和基于知识的路径控制器[J].机器人，1992(02):25-30.DOI:10.13973/j.cnki.robot.1992.02.006.

[5] 岳伟，席云，关显赫.基于多蚁群协同搜索算法的多AUV路径规划[J].水下无人系统学报，2020，28(05):505-511.

[6] 郭银景，孟庆良，孔芳等.AUV路径规划算法研究现状与展望[J].计算机科学与探索，2020，14(12):1981-1994.

[7] 马永杰，云文霞.遗传算法研究进展[J].计算机应用研究，2012，29(04):1201-1206+1210.

[8] Wu H，Song S，You K，et al.Depth Control of Model-free AUVs ViaReinforcement Learning[J].IEEE Transactions on Systems，Man，andCybernetics:Systems，2018，49(12):2499-2510.

[9] Zhang L J，Qi X，Pang Y J.Adaptive Output Feedback Control Based onDRFNN for AUV[J].Ocean Engineering，2009，36(10):716-722.

[10] Carlucho I，De Paula M，Wang S，et al.AUV Position Tracking Control UsingEnd-to-end Deep Reinforcement Learning[C].OCEANS 2018 MTS/IEEECharleston.Charleston，South Carolina，2018，5(9):1-8.

[11] Jiang P，Song S，Huang G.Attention-based Meta-reinforcement Learning forTracking Control of AUV with Time-varying Dynamics[J].IEEE Transactionson Neural Networks and Learning Systems，2021，33(11):6388-6401.

[12] Wang C，Du J，Wang J，et al.AUV Path Following Control Using DeepReinforcement Learning Under the Influence of Ocean Currents[C].2021 5thInternational Conference on Digital Signal Processing.Chengdu，China，2021，8(1):225-231.

[13] Hadi B，Khosravi A，Sarhadi P.Deep Reinforcement Learning for AdaptivePath Planning and Control of an Autonomous Underwater Vehicle[J].AppliedOcean Research，2022，129(10):103-326.

[14] 张佳朋.基于强化学习的水下机器人路径跟踪方法研究[D].哈尔滨理工大学，2023.DOI:10.27063/d.cnki.ghlgu.2023.001343.

[15] 王晓伟，姚绪梁，夏志平等.欠驱动AUV三维直线路径跟踪控制[J].控制工程，2020，186(06):61-67.

[16] 刘钰晴，刘加朋.基于命令滤波反步的AUV轨迹跟踪控制[J].控制工程，2022(005):029.

[17] Xia Y，Xu K，Huang Z，et al. Adaptive energy-efficient tracking control of a X rudder AUV with actuator dynamics and rolling restriction[J].Applied Ocean Research，2022，118:102994-.

[18] Jw A，Yi Z A，Yl B，et al. Multi-strategy fusion based on sea state codes for AUV motion control[J]. Ocean Engineering，2022，248(2):110600.

[19] Zhang J，Xiang X，Zhang Q，et al. Neural network-based adaptive trajectory tracking control of underactuated AUVs with unknown asymmetrical actuator saturation and unknown dynamics[J]. Ocean Engineering，2020，218(5):108193.

[20] Fang K，Fang H，Zhang J，et al. Neural adaptive output feedback tracking control of underactuated AUVs[J].Ocean Engineering，2021，234(8):109211.

[21] 蒋晗中.协同定位技术研究综述[J].通信电源技术，2017，34(06):48-50.DOI:10.19399/j.cnki.tpt.2017.06.017

[22] 孙睿智.基于EKF的AUV协同定位方法仿真与验证[J].舰船电子工程，2014，34(03):61-64+71.

[23] 罗孝坤.基于深度强化学习的AUV动态避障方法研究[D].哈尔滨工程大学，2024.DOI:10.27060/d.cnki.ghbcu.2022.001008.

赵俊波，葛锡云，冯雪磊等.水下SINS/DVL组合导航技术综述[J].水下无人系统学报，2018，26(01):2-9.

创新点与项目特色:

1.提出一种基于预搜索路径的改进Q-learning算法。Q-leaning算法初期Q值为0，导致算法训练初期盲目性强，本项目结合简单粒子群优化（simple particle swarm optimization，SPSO）算法，采用预搜索路径的方法，将Q-learning算法训练范围缩小，提高了算法的收敛速度。同时，在奖励函数方面，距离启发项采用曼哈顿距离公式，减少了算法的计算代价。

2.提出一种基于GRU模型的改进DDPG算法。将GRU框架引入DDPG算法结构，通过处理序列数据和神经网络，从而提升了算法的处理效率和速度。此外，该算法还通过加速动作决策过程，优化了输出离散连续动作对的准确性，进一步提高AUV的运动效率和稳定性。

技术路线、拟解决的问题及预期成果:

5.1.技术路线

本项目拟开展如图1所示的研究技术路线图，其中研究内容1对应技术路线（1）、（2）；研究内容2对应技术路线（3）、（4）；研究内容3对应技术路线（5）、（6）。

图1 技术路线图

（1）洋流干扰下的卡尔曼滤波

针对AUV水下定位与循迹精度，本项目以卡尔曼滤波为基础开展滤波算法的优化。卡尔曼滤波通过系统输入输出观测数据，遵循最小方差原则采用递归方法对系统状态进行最优估计。通过上一时刻的估计值和当前时刻的观测值估计状态变量。AUV在水下运动的过程中，水下定位的精度会受到水的流动性的影响。所以本项目拟引入洋流模型到卡尔曼滤波中，提升卡尔曼滤波在水下定位中的准确性。首先，先向洋流模型（例如：NEMO、MOM等）输入海洋的初始条件，输出此时洋流的流速场。当AUV进入下一个状态，再通过洋流模型输出洋流的流速场。在卡尔曼滤波中，将洋流速度作为状态变量的一部分，状态向量将包括AUV的位置、速度以及洋流速度。在状态预测中，令AUV的实际速度等于它的自主速度和洋流速度的矢量和。同时，更新系统矩阵，以此反映洋流速度对AUV位置和速度的影响。此外，当洋流模型输出流速后，可以将其与此位置的以往的流速场进行比较，当相差过大时，在预测误差方差阵方程中适当增大过程噪声协方差，以此来反映洋流模型的不确定性。

（2）基于海水状态的卡尔曼滤波

洋流干扰会影响卡尔曼滤波对信息的处理，为进一步提高在水下定位中卡尔曼滤波估计的精度，对不同海洋状态下的卡尔曼滤波进行分析。如图2，首先，卡尔曼滤波根据上一步的状态信息推导出上一步的状态预测值X_k-1|k-1和估计均方差阵P_k-1|k-1进入预测阶段，通过状态预测方程得到的1步状态预测X_k|k-1和1步估计均方差阵P_k|k-1进入卡尔曼滤波更新阶段。

图2 基于海洋状态下的卡尔曼滤波流程图

由于多AUV在不同位置下，海水状态是不同的。故在每次量测之前，先通过传感器节点收集数据（温度t、盐度S、深度Z），此处引用W.D.Wilson简化公式（1）计算声速。

在不同声速下，声纳测距的结果也是不同的，故在量测的估计值中加入声速测量补偿，来修正卡尔曼滤波的观测值。得到量测值后，将预测与量测结合起来优化输出，滤波器得到了新的状态估计X_k|k和估计均方差阵P_k|k，然后可以进入下一个时间步的预测阶段。这个过程不断迭代更新，使得卡尔曼滤波器能够逐步优化对系统状态的估计。

（3）路径预搜索

针对AUV全局路径规划，本项目拟以Q-learning算法为基础开展路径算法的优化，Q-learning是通过Q-table不断地迭代最大Q值，以最大Q值来选择路径但Q值初始化均为0，意味着在训练初期动作盲目性比较强，搜寻可行路径的效率比较低。为了提升训练初期的效率，本项目拟结合路径预搜索来优化Q-leaning算法中的训练初期。利用其初期收敛速度快的特点，完成算法初期的训练任务。

图3 路径预搜索流程图

如图3所示，首先，粒子群初始化为一组随机解，每个粒子有一个位置属性。每一轮迭代中，通过更新方程（2）-（3），计算每个粒子的路径评价值来更新个体最优解和全体最优解，然后再依据这两个变量不断更新自己的位置。

粒子群求解基于公式（4）多轮迭代，其中x_id代表第i个粒子在d维的位置，该粒子当前搜索到的最优位置为p_id和整个粒子群当前的最优位置p_gd，r₁和r₂是服从U(0，1)分布的随机数。

当粒子群间平均距离y小于某一参数h时，粒子群将聚集到最优路径四周，完成路径预搜索任务。Q-learning算法再根据预搜索路径的信息素分布进行Q值的训练，从而提升了Q-leaning算法的收敛速度。

（4）奖励函数的改进

奖励函数是强化学习过程中最重要的环节之一，它为智能体的学习收敛提供了导向作用。在奖励函数中，距离启发项是为了鼓励AUV朝着终点的方向移动，其参数设置影响路径规划的效率，为此，本项目拟利用曼哈顿距离公式来改进距离启发项r。在当前AUV路径规划研究中，通常以如公式（5）所示欧式距离公式计算距离启发项。本项目拟采用如公式（6）所示的曼哈顿距离公式计算距离启发项。曼哈顿距离公式只需做简单的加减法，这使得计算机在大量的计算过程中代价更低，而且会消除在开平方过程中取近似值而带来的误差。

（5）构建GRU网络

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。构建GRU（门控循环单元）模型首先需要构建GRU的结构。

图4 GRU结构图

假设一个当前的输入x^t，和上一个节点传递下来的隐状态（hidden state）h^t-1，这个隐状态包含了之前节点的相关信息。结合x^t和h^t-1，GRU会得到当前隐藏节点的输出y^t和传递给下一个节点的隐状态h^t。如图4所示，首先，先通过上一个传输下来的状态h^t-1和当前节点的输入x^t来获取两个门控状态。其中r控制重置的门控（reset gate），z为控制更新的门控（update gate）。得到门控信号之后，首先使用重置门控来得到数据，再将h^t-1′与输入x^t进行拼接，再通过tanh激活函数来将数据放缩到-1~1的范围内，即得到h′。然后另一个部分为更新记忆阶段，在这个阶段，同时进行了遗忘了记忆两个步骤。使用了先前得到的更新门控z（update gate）。

（6）基于DDPG算法的神经网络架构

项目研究深度强化学习算法和GRU模型，针对深度强化学习算法存在训练时间长、收敛速度慢的问题，重点研究如何利用GRU模型中的记忆单元和遗忘单元的特性加快训练速度，使模型更快地收敛，减少规划路径中的冗余。在DDPG算法中，智能体与当前环境进行交互从而获取当前时刻的状态信息，通过神经网络对获取的信息进行分析，输出智能体要执行的动作策略，智能体行动后与环境交互获得反馈，对反馈后的各个动作策略进行评价，最后更新神经网络的参数。

图5 DDPG算法框架图

如图5，使用当前Actor与环境进行交互，也就是上图中输入状态S到当前Actor网，得到动作a，对环境施加动作a，环境会返回给下一时刻的状态s´和奖励r。于是就可以用四元组（S,a,r,S´）表示这一过程的数据。设Actor网和Target Actor网的参数分别是w和w´；Critic网和Target Critic网的参数分别是θ和θ´。经验池里面取出一个样本（S,a,r,S´）进行训练。把（S,a,r,S´）中的S和a输入到当前Critic中，得到当前的Q值Q(S,a)。然后把（S,a,r,S´）中的S´输入到目标Actor网中，得到动作a´。并把S´和a´一起输入到目标Critic中，得到Q（S´,a´）于是得到目标Q值，使用梯度下降法更新当前critic网的所有参数θ。利用Actor网络计算出状态下s的动作anew，在当前critic里给出Q值Q(s,anew)，更新Actor使得Q值输出Q(s,anew)最大化或最小化然后用梯度上升更新Actor网的所有参数w。最后，每隔一段时间，分别用这两个当前网络的参数，去更新目标Actor和目标Critic。

其次，GRU-DDPG在Actor网络和Critic网络的基础上增加了GRU网络层。GRU用于处理移动机器人状态信息。在每一刻t，将机器人状态信息h_t-1=(s₁,a₁,...,s_n,a_n)作为GRU的输入序列，经过遗忘和选择记忆提取关键信息后存储在h_t。在经验池中保存数据时将表现较好的样本存入，为后续更新Actor网络和Critic网络提供样本数据。所有障碍物的状态信息输入后，将存储在h_t中的数据维度转换为状态向量h_t。AUV的当前状态s_t经过GRU处理后作为GRU-DDPG网络的输入h_t，输送给Actor网络和Critic网络的全连接层。

图6 GRU-DDPG网络层图

如图6所示，GRU-DDPG神经网络有三层网络组成。第一层为GRU层，包含两个隐含的记忆单元，以获取时间序列信息，对当前状态的信息和上一时刻的状态信息的遗忘和记忆；第二层为全连接层，包含大量神经元节点，将GRU处理后的状态信息作为输入；第三层为全连接层，输出发送给机器人的动作信息。Actor网络和Critic网络的隐藏层相同，Critic网络给出机器人当前状态和动作的Q值。

5.2.拟解决的问题

（1）卡尔曼滤波中海洋状态的构建研究

多AUV在水下运动的过程中，在不同的水下位置，AUV所在位置的海水状态也不同，洋流会对AUV的位置和速度造成影响。若缺少卡尔曼滤波中海洋状态的构建，则会降低多AUV水下定位及循迹精度。因此研究卡尔曼滤波中海洋状态的构建是本项目拟解决的问题之一。

（2）基于深度强化学习的局部最优解研究

由于环境的复杂性与奖励函数的设计，AUV易陷入局部最优解，而无法找到全局最优解。而深度强化学习可以通过使用更复杂的模型结构和更精细的策略搜索方法来避免局部最优解。若算法无法避免局部最优解，则难以满足多AUV协同决策任务的复杂性。所以，研究基于深度强化学习的局部最优解是本项目拟解决问题之一。

5.3.预期成果

（1）提出一种基于预搜索路径的Q-learning算法。

（2）提出一种融合GRU的DDPG结构算法。

（3）产出1-2篇专利

项目研究进度安排:

1.2024年02月-2024年05月

（1）小组成员共同研读讨论项目相关的文献资料；

（2）文献综述，提出项目的总体研究方案；

（3）在导师的指导下完成申报书的撰写和准备答辩PPT；

（4）完成项目申报和项目答辩。

2.2024年06月-2024年09月

（1）研究简化粒子群优化算法；

（2）研究基于路径预搜索的Q-learning算法；

（3）利用仿真软件进行仿真研究，验证相关算法。

3.2024年10月-2025年01月

（1）研究基于GRU模型的DDPG算法；

（2）利用仿真软件进行仿真研究，验证相关算法；

（3）撰写相关发明专利，完成项目中期检查报告。

4.2025年02月-2025年06月

（1）研究在多AUV路径规划下基于多源海洋信息的卡尔曼滤波；

（2）利用仿真软件进行仿真研究，验证相关算法；

（3）撰写相关发明专利，完成项目结题。

已有基础:

与本项目有关的研究积累和已取得的成绩:

导师主要从事水声传感器网络、智能体路径规划、水声网络安全保护等方向研究。

导师近年来在IEEE TII，IEEE TMC，IEEE Wireless Communications，IEEE Communications Magazine，IEEE IoT，IEEE TVT等国际期刊及国际学术会议上发表SCI/EI检索论文39篇，其中以第一作者发表SCI期刊论文8篇，以导师一作、学生二作发表SCI期刊论文6篇，EI会议论文2篇。主持国家自然科学基金青年基金1项，中国博士后科学基金第71批面上资助一等1项，参与包括国家重大科技专项及国家自然科学基金项目在内的10项科研项目。获得省部级中国商业联合会科技进步二等奖1项，厅局级二等奖2项。

导师承担的国家自然科学基金青年基金项目“UASNs中面向虫洞攻击和监听攻击的源位置隐私保护关键技术研究”和参与的其他国家自然科学基金为本项目积累了深厚的基础和丰富的经验，为本项目提供重要支撑。

*前期研究工作积累

1 Hao Wang, Guangjie Han, Aini Gong, Aohan Li, Yun Hou, A Backbone Network Construction-Based Multi-AUV Collaboration Source Location Privacy Protection Algorithm in UASNs, IEEE Internet of Things Journal, vol. 10, no. 20, pp. 18198-18210, 2023.

2 Hao Wang, Guangjie Han, Yulin Liu, Aohan Li, Jinfang Jiang, AUV-Assisted Stratified Source Location Privacy Protection Scheme based on Network Coding in UASNs, IEEE Internet of Things Journal, vol. 10, no. 12, pp. 10636-10648, 2023.

3 Hao Wang, Guangjie Han, Weizhe Lai, Yun Hou, Chuan Lin, A Multi-Round Game-based Source Location Privacy Protection Scheme with AUV enabled in Underwater Acoustic Sensor Networks, IEEE Transactions on Vehicular Technology, vol. 72, no. 6, pp. 7728-7742, 2023.

4 Hao Wang, Guangjie Han, Yu Zhang, Ling Xie, A Push-based Probabilistic Method for Source Location Privacy Protection in Underwater Acoustic Sensor Networks, IEEE Internet of Things Journal, vol. 9, no. 1, pp. 770-782, 2022.

5 Hao Wang, Guangjie Han, Yun Hou, Mohsen Guizani, Yan Peng, A Multi-Channel Interference based Source Location Privacy Protection Scheme in Underwater Acoustic Sensor Networks, IEEE Transactions on Vehicular Technology, vol. 71, no. 2, pp. 2058-2069, 2022.

6 Hao Wang, Guangjie Han, Chunsheng Zhu, Sammy Chan, Wenbo Zhang. TCSLP: A Trace Cost based Source Location Privacy Protection Scheme in WSNs for Smart Cities, Future Generation Computer Systems, vol. 107, pp. 965-974, 2020.

7 Hao Wang, Guangjie Han, Wenbo Zhang, Mohsen Guizani, Sammy Chan, A Probabilistic Sou

8 Hao Wang, Guangjie Han, Wenbo Zhang, Mohsen Guizani, Sammy Chan, A Probabilistic Source Location Privacy Protection Scheme in Wireless Sensor Networks, IEEE Transactions on Vehicular Technology, vol. 68, no. 6, pp. 5917-5927, 2019.

9 Hao Wang, Guangjie Han, Lina Zhou, James Adu Ansere, Wenbo Zhang, A source location privacy protection scheme based on ring-loop routing for the IoT, Computer Networks, vol. 148, pp. 142-150, 2019.

已具备的条件，尚缺少的条件及解决方法:

导师所在单位（河海大学港口海岸与近海工程学院）近年来投入了大量资金，配置了相应港池设备与实验工作环境，为本项目的研究提供了条件。本项目依托团队——河海大学信息科学与工程学院网络与安全实验室团队与河海大学港口海岸与近海工程学院海洋可再生能源工程团队，开展AUV路径规划、博弈、移动轨迹保护和AUV辐射噪声探测与分析研究，项目申请人的工作条件完全具备承担本项目研究的能力。

（1）水下实验条件

L型风浪流港池系统具有同时造风、造浪、造流功能，可模拟规则波、不规则波、斜向波、孤立波、聚焦波等，用于模拟深海环境。波浪滑翔器、水下节点以及水下信号采集与噪声分析设备为本项目研究内容的验证提供设备基础。

（2）仿真实验条件

高性能计算集群采用IBM BladeCenter H刀片中心和HS22作为计算结点，共37节点，444核，26T存储空间，能实现40GB Infiniband高速全互联，为本项目的仿真实验提供算力支持。

经费预算

开支科目	预算经费（元）	主要用途	阶段下达经费计划（元）
开支科目	预算经费（元）	主要用途	前半阶段	后半阶段
预算经费总额	1500.00	差旅费、材料费	750.00	750.00
1. 业务费	300.00	差旅费	150.00	150.00
（1）计算、分析、测试费	0.00	无	0.00	0.00
（2）能源动力费	0.00	无	0.00	0.00
（3）会议、差旅费	300.00	差旅费	150.00	150.00
（4）文献检索费	0.00	无	0.00	0.00
（5）论文出版费	0.00	无	0.00	0.00
2. 仪器设备购置费	0.00	无	0.00	0.00
3. 实验装置试制费	0.00	无	0.00	0.00
4. 材料费	1200.00	购买项目所需的软件、书籍、文献等，复印及打印相关材料	600.00	600.00

结束

大学生创新创业训练管理系统

创新创业管理系统

详情

基于机器学习的多AUV路径规划关键技术研究

基本情况

项目成员

指导教师

立项依据

5.1.技术路线

本项目拟开展如图1所示的研究技术路线图，其中研究内容1对应技术路线（1）、（2）；研究内容2对应技术路线（3）、（4）；研究内容3对应技术路线（5）、（6）。

经费预算

大学生创新创业训练管理系统

创新创业管理系统

详情

基于机器学习的多AUV路径规划关键技术研究

基本情况

项目成员

指导教师

立项依据

5.1.技术路线

本项目拟开展如图1所示的研究技术路线图，其中研究内容1对应技术路线（1）、（2）；研究内容2对应技术路线（3）、（4）；研究内容3对应技术路线（5）、（6）。﻿

经费预算

本项目拟开展如图1所示的研究技术路线图，其中研究内容1对应技术路线（1）、（2）；研究内容2对应技术路线（3）、（4）；研究内容3对应技术路线（5）、（6）。