基于多智能体深度强化学习的无人艇集群博弈对抗研究
源自:水下无人系统学报
作者:于长东, 刘新阳, 陈聪 刘殿勇 梁霄
摘 要
基于未来现代化海上作战背景, 提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先, 根据不同的作战模式和应用场景, 提出基于分布式执行的多智能体深度确定性策略梯度算法, 并对其原理进行了介绍; 其次, 模拟具体作战场景平台, 设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明, 文中方法可以有效应对敌方无人艇的协同围捕决策问题, 在不同作战场景下具有较高的效率, 为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。
关键词
无人艇集群 / 多智能体深度确定性策略梯度算法 / 深度强化学习 / 智能决策 / 博弈对抗
引言
在现代军事研究领域, 随着高新技术的快速发展, 催化了战场中作战思想、理论和模式等方面的迅速变革, 战争形态逐渐趋于信息化和智能化[1-3]。人工智能和无人系统技术为未来战争中的决策分析、指挥控制和博弈对抗等应用提供了更多智能决策和自主作战能力, 逐渐扮演着更加重要的角色。其中, 无人艇作为一种全自动小型水面机器人, 具有体型小、机动灵活以及活动范围广等优势, 在情报侦查、海上巡逻以及环境检测等领域发挥着重要作用[4]。
强化学习作为人工智能技术的重要分支, 目前在无人艇、无人机等多智能体博弈对抗问题中具有重要的应用价值[5-7]。李波等[8]将多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法应用于多无人机的协同任务研究, 可以解决简单的任务决策问题。刘菁等[9]提出了博弈理论与Q-Learning相结合的无人机集群协同围捕方法, 结果表明该方法可以完成对单目标的有效围捕。Zhan等[10]提出了多智能体近端策略优化(multi-agent proximal policy optimization, MAPPO)算法, 用于实现异构无人机的分布式决策和协作任务完成。赵伟等[11]对无人机智能决策的发展现状和未来挑战进行了讨论和分析。相比之下, 目前国内外对于无人艇的博弈对抗研究工作相对较少, 仍处于发展阶段。苏震等[12]开展了关于无人艇集群动态博弈对抗的研究, 提出利用深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法来设计策略求解方法, 训练得到的智能体可以较好地完成协同围捕任务。夏家伟等[13]则使用MAPPO算法完成对单一无人艇的协同围捕任务, 通过结合围捕任务背景, 建立了伸缩性和排列不变性的状态空间, 最后利用课程式学习训练技巧完成对围捕策略的训练, 结果表明所提方法在围捕成功率上相较于其他算法具有一定优势。
无人艇集群博弈对抗的研究工作仍处于起步阶段, 存在较大的提升空间: 目前的研究中, 无人艇博弈对抗中的敌方通常采用传统算法躲避我方的拦截围捕, 缺乏智能化决策能力; 其次, 海上目标行为动作较为复杂, 双方博弈过程中的当前决策需要充分考虑前后阶段产生的影响结果; 此外, 除需要围捕的动态目标外, 海上还存在岛礁等障碍物, 在博弈对抗中还需要考虑躲避岛礁障碍物等问题。
受到以上启发, 文中以无人艇集群对敌方入侵岛礁目标进行围捕拦截为背景, 开展基于多智能体深度强化学习的无人艇集群协同围捕研究。首先基于现代式作战需求, 合理设计作战假想, 建模相应的围捕环境; 其次, 采用MADDPG算法求解策略方法, 根据不同的围捕任务设计网络结构、奖励函数和训练方法; 最后通过仿真实验表明, 训练得到的我方无人艇经过博弈后能够有效完成对敌方的围捕拦截任务。
1. 任务场景描述
海上无人艇集群协同围捕任务是一种典型的集群作战模式, 如图1所示, 文中主要针对海上岛礁防卫任务场景展开研究。不同于离散化任务环境的方案, 文中从实际作战角度出发, 设计了连续的海上作战地图作为无人艇集群博弈对抗问题中的任务环境, 即采用连续的空间坐标位置来表示敌我双方的位置信息。若干敌方无人艇会随机出现在某海域位置, 对目标岛礁进行入侵进攻。而我方无人艇集群在岛礁周围进行常态化巡逻, 当发现入侵敌方后, 会迅速调整状态去拦截围捕敌方。
图 1 无人艇围捕场景示意图
无人艇的简化运动模型定义为
{x˙i=Uicosϕiy˙i=Uisinϕi{x˙i=Uicosϕiy˙i=Uisinϕi |
(1) |
式中: (x˙i,y˙i)(x˙i,y˙i)表示无人艇的位置坐标信息; Ui 表示艇速; ϕi 表示无人艇艏向角。考虑到无人艇的欠驱动特性, 其艏向角在单位时间内的变化范围为ϕi∈[−10°, 10°]。任意2艘无人艇i和j的相对距离和相对角度分别为
⎧⎩⎨lij=(x˙i−x˙j)2+(y˙i−y˙j)2−−−−−−−−−−−−−−−−−−√φij=arctan((y˙i−y˙j)/(x˙i−x˙j)){lij=(x˙i−x˙j)2+(y˙i−y˙j)2φij=arctan((y˙i−y˙j)/(x˙i−x˙j)) |
(2) |
式中, (x˙i,y˙i)(x˙i,y˙i)和(x˙j,y˙j)(x˙j,y˙j)分别表示2艘艇的坐标位置。此外, 我方无人艇在围捕敌方的过程中, 考虑到实际无人艇发生碰撞的可能性, 当我方各无人艇距离敌方目标点距离l小于围捕半径r时, 则视为完成围捕任务。
2. 博弈算法与训练策略设计
文中考虑深度强化学习在无人艇集群的博弈对抗策略上的应用。强化学习下无人艇与战场环境的交互过程如图2所示: 无人艇根据战场环境的即时状态St , 执行可以获得最大回报的行为动作At , 以使得奖励Rt 达到最大值。在选择行为At 后, 环境会给予无人艇RtRt的奖励, 同时环境进行到下一状态St+1 。然后无人艇根据下一状态St+1 和奖励的反馈Rt+1 , 选择执行下一个行为动作, 进入下一轮的动态交互。
图 2 无人艇与环境交互过程示意图
基于实际作战思想, 在敌我双方的无人艇博弈对抗中, 若一方的各无人艇处于协同合作关系, 则对方的无人艇处于竞争博弈关系。针对该问题, 文中选择了主流的群智能体强化学习算法——MADDPG算法[14]。MADDPG算法由DDPG算法[15]发展而来, 可有效缓解训练中的非平稳问题, 提高学习效率。
2.1 DDPG算法
DDPG算法在网络结构上采用了基于“行动者-评论家” (actor-critic, AC)的框架形式[15], Actor网络基于当前智能体的状态信息, 给出确定性动作策略, 让智能体执行最优动作, 同时通过策略梯度算法不断优化策略网络参数; 而Critic网络则对智能体基于当前状态的动作进行Q值评估, 并根据智能体的实际收益, 更新目标价值和网络参数, 提高估计的准确性。
DDPG算法的AC网络受到深度Q学习的在线-目标双网络结构的启发, 将在线训练方式转向离线训练方式, 简化了许多复杂操作, 同时也提高了数据的有效利用。AC网络结构分别由2个完全相同的深度神经网络组成, 这2个网络的作用是将输入的状态信息和输出的动作信息进行连续化处理, 同时还能够将低维度的离散信息映射到高维度的连续信息空间中。图3展示了 DDPG算法的数据传递结构示意图[16], 结构左侧为Actor策略网络, 通过策略梯度优化对网络参数进行优化, 从而将状态信息映射到最优策略; 然后网络根据策略输出确定性动作, 并将其送入右侧的在线价值网络来预测状态-动作价值; 在线价值网络则采用价值梯度来更新优化网络参数, 将状态-动作组映射为价值函数; 最后, 采用滑动平均更新法对目标网络参数进行更新。
图 3 DDPG算法数据传递结构示意图
2.2 MADDPG算法
在多无人艇系统中, 每个无人艇都是独立的智能体, 由于各智能体同时受到环境和其他智能体的影响, 使用单智能体强化学习算法无法有效处理复杂多变的多智能体环境, 从而导致训练效果通常不理想。因此, 文中采用了多智能体强化学习算法MADDPG作为无人艇集群协同围捕方法。MADDPG算法通过经验回放、目标网络和通信机制等方式来考虑前后阶段产生的影响问题, 从而处理多智能体系统中的长时间依赖性和协作竞争问题。
MADDPG 在训练多智能体过程中使用了集中式训练和分布式执行方案, 即训练中一方的所有智能体都共享全局信息, 同时智能体可以并行地执行策略, 从而加速学习过程。该方案可以使多智能体系统能够更好地协同学习和协调策略, 提高训练效率和稳定性。MADDPG网络中的数据传递如图4所示, 在更新网络的训练过程中, 中心化的评价函数Critic使用经验池中的联合经验数据来更新网络参数, 而Actor函数会依据 Critic 给出的Q值更新策略。当更新完成后, 在实际执行阶段用更新后的 Actor决策函数进行去中心化决策, 即执行阶段仅使用自身的局部观察得到策略, 这样能够有效减少复杂度和计算量。
图 4 MADDPG算法数据传递结构示意图
图 5 MADDPG算法具体执行流程
2.3 任务决策与奖励函数设计
文中基于海上岛礁防卫任务展开研究。假设无人艇分别为USV1, USV2, …, USVk, 每艘无人艇的自身状态空间SusvSusv中不仅包括当前时刻的速度信息(uk,vk)(uk,vk), 还包括在海洋环境中的坐标位置信息(xk,yk)(xk,yk)。此外, 环境状态SenvSenv则包含了岛屿的坐标位置(Dx,Dy)(Dx,Dy), 该岛屿位置既是我方保卫目标位置, 也是敌方进攻目标位置。
文中的敌方艇也采用了智能化逃跑策略, 因此文中敌我双方都采用了基于MADDPG算法的博弈策略。在文中设计的 MADDPG 算法中, 每艘无人艇的状态包括了环境状态、自身状态以及其他无人艇的状态。每艘无人艇在t时刻的状态定义为
St,i=(u1,v1,⋯,uk,vk;x1,y1,⋯,xk,yk;Dx,Dy)St,i=(u1,v1,⋯,uk,vk;x1,y1,⋯,xk,yk;Dx,Dy) |
(3) |
此外, 无人艇集群的友方之间可以获取角度信息φi , 该角度为我方2个无人艇靠近敌方无人艇形成的夹角。无人艇的动作范围是二维的连续空间, 采取确定性动作策略后, 会在每一时刻输出瞬时速度(ux,vy) , 无人艇经过Δt 时刻后的位置更新为(xt+Δtusvi,yt+Δtusvi)(xusvit+Δt,yusvit+Δt), 即
{xt+Δtusvi=xtusvi+uxΔtyt+Δtusvi=ytusvi+vyΔt{xusvit+Δt=xusvit+uxΔtyusvit+Δt=yusvit+vyΔt |
(4) |
文中主要从以下2方面来设计奖励函数。
敌方奖励函数设计如下:
敌方在运动过程中的奖励目标函数为Rr=−0.1∑i=1ndiRr=−0.1∑i=1ndi, 其中didi为第i艘敌方无人艇与目标的最近距离, 距离越近奖励值越大; 此外给与碰撞惩罚, 当敌方碰撞到船只或岛屿时, 惩罚为−5。
我方奖励函数设计如下:
在运动过程中围捕敌方目标奖励函数为R′r=−0.1∑i=jndjRr′=−0.1∑i=jndj, dj 为第j艘无人艇与敌方的距离; 若我方任意一艘无人艇进入到敌方无人艇的围捕距离范围内, 则我方获得正向奖励+2, 敌方获得奖励为−2; 当我方所有艇均进入围捕距离则我方奖励+5, 敌方获得奖励为−5; 此外, 为使得我方无人艇尽可能地均匀分散在敌方周围, 给与我方适当的角度惩罚, 即Rα=−2×|φi−2π/N|, 其中N为我方围捕无人艇的数量, φi为第i艘无人艇、相邻友方与敌方之间形成的角度。
3. 实验结果与分析
3.1 模型参数设计
文中应用的MADDPG算法模型使用了确定性动作策略, 即a=πθ(s)a=πθ(s)。网络结构具体设计如下: 当我方与敌方无人艇数量为3对1时, 策略网络结构为[14; 64; 64; 2]的全连接神经网络, 价值网络结构为[14; 64; 64; 1]的全连接神经网络, 网络结构表示输入层、隐藏层和输出层对应的节点数; 当无人艇数量为6对2时, 策略网络结构为[26; 64; 64; 2], 价值网络的结构则为[26; 64; 64; 1]。在训练时的最小批尺寸为512; 训练3对1时最大回合数为5000, 训练6对2时最大回合数为10000, 价值网络的学习率为0.001, 策略网络的学习率为0.001, 2个网络都采用了Adam优化器进行训练网络, 经验池的大小为5×105。
3.2 结果分析
文中分别进行了保卫岛屿场景下的无人艇3对1和6对2的博弈对抗实验。
1) 3对1实验
双方无人艇回报曲线如图6所示。可以看出, 双方回报值都呈现整体上升并增至最大值, 然后趋于稳定。这说明双方处于一种互相竞争的状态, 最终达到一种博弈平衡。从后期的回报曲线可以看出, 我方无人艇的曲线分布一致且相对稳定, 每艘无人艇均可完成围捕任务。
图 6 3对1时各艇回报值
图7展示了3对1时不同时刻的仿真结果。在初始时刻, 我方无人艇围绕在岛屿周围进行巡逻, 敌方无人艇随机出现在某一位置(见图7(a)); 随后, 敌方无人艇对目标岛屿进行进攻, 我方发现目标后, 选择绕开岛屿障碍物, 并对敌方进行围捕拦截(见图7(b)和(c)); 最后, 我方无人艇对敌方无人艇进行包围, 分散在其周围, 并保持跟随, 视为围捕成功(见图7(d))。
图 7 3对1仿真结果示意图
2) 6对2实验
我方6艘无人艇所获得的回报曲线如图8所示。可以看出, 我方无人艇回报值均呈现上升趋势并最终趋于稳定状态。这说明无人艇集群在训练中得到了良好的收益, 有效完成了任务目标。相比之下, 敌方无人艇的回报曲线则先上升, 之后出现了严重的波动, 呈现不稳定现象, 如图9所示。
图 8 6对2时我方各艇回报值
图 9 6对2时敌方各艇回报值
图10展示了6对2时不同时刻的仿真结果。在初始时刻, 我方6艘无人艇分散在岛屿周围, 敌方2艘无人艇随机出现在不同区域(见图10(a)); 当发现敌方无人艇后, 我方无人艇首先绕过岛屿, 然后去围捕拦截敌方无人艇(见图10(b)); 敌方无人艇不断进行智能躲避, 而我方充分考虑了敌方目前位置以及下一阶段的运动趋势, 并在其周围展开围捕(见图10(c)~(e)); 最后, 我方无人艇成功完成对敌方的围捕, 以持续的围捕状态伴随在敌方周围(见图10(f))。
图 10 6对2仿真结果示意图
4. 结束语
基于实际的海上作战背景, 文中提出了基于多智能体深度强化学习方法MADDPG, 用以解决无人艇群动态博弈对抗中的协同围捕决策问题。通过搭建模型, 设计奖励函数和训练函数, 完成实验。通过3对1和6对2的仿真实验, 结果表明我方无人艇可以有效完成对敌方无人艇的围捕拦截, 证明了所搭建模型系统的有效性, 为未来实战的应用提供了技术支撑和理论参考。在未来的研究工作中, 将会考虑采用更加高效的状态信息处理手段, 例如文献[13]中的伸缩和排列不变性设计, 以使同一个网络结构可以适用于不同数量无人艇的博弈对抗场景。
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。