Research on Unmanned Surface Vehicle Detection Strategy Based on Game Theory
-
摘要: 针对水下小目标采取规避动作形成跟踪丢失, 不易探查, 进而导致安防系统虚警率较高的问题, 文中在固定式声呐检测到目标并不断获取相关数据的前提下, 考虑搭载图像声呐的无人艇对目标进行近距离查证的情景。通过固定式声呐获取目标的轨迹数据, 而后采用粒子滤波方法对轨迹数据进行预测。随后建立我方无人艇与敌方目标的博弈模型, 根据敌方目标每一时刻的动作和模型中的支付函数, 选择对我方最有利的决策, 以此形成双方的对抗过程。最后通过数值仿真得到无人艇的目标点和探查策略, 并利用试验数据验证目标点的准确性, 方便无人艇成功探查目标。文中研究可为无人系统探查小目标提供理论依据。Abstract: Owing to the evasive action of small underwater targets, they are lost and difficult to detect, which leads to a high false alarm rate of the security system. Based on stationary sonar detection of the target and continuously obtaining relevant data, this study considers the scene of an unmanned surface vehicle (USV) that carries the image sonar to verify the target at a short distance. First, the trajectory data of the target are obtained using stationary sonar, and then the particle filter method is used to predict the trajectory data. Then, a game theory model between our USV and the enemy target is established. According to the action of the enemy target at every moment and the payment function in the model, our USV chooses the most favorable decision to form the confrontation process of both sides. Finally, the target points and detection strategies of the USV are obtained through a numerical simulation. The accuracy of the target point was verified by the test data, which is convenient for the USV to successfully detect the target. The results of this study provide a theoretical basis for unmanned systems to detect small targets.
-
Key words:
- unmanned surface vehicle /
- particle filter /
- game theory /
- image sonar /
- detection strategy
-
0. 引言
近几年来, 随着水下小目标无人装备的现代化和智能化程度的发展, 其对我国港口要地的侦察破坏愈加频繁, 严重威胁我国海域安全。典型小目标无人装备如无人水下航行器(unmanned undersea vehicle, UUV)等具备自主探测、感知、分析和决策的能力, 主要执行的任务包括监视侦查、突袭、海底地形测绘、传感器植入以及物资补给等[1]。
敌方小目标无人装备行动具有规律性, 能根据我方行动进行决策, 在发现我方靠近时可以采取规避动作, 不利于追踪。此外, 常规声呐在探查小目标时, 因为敌方目标强度弱, 且行进过程中相对于声呐的方位角度起伏性较大, 很难探查, 所以对敌方目标的探测是港口要地防御的难题。现有的港口近程安防系统如磁栅栏、固定式声呐等虽然能起到防护作用, 但其无法区分鱼群与目标, 虚警率较高。为此, 文中基于目标进入港口要地执行侦察任务的场景, 通过固定式声呐获取数据, 引入无人艇(unmanned surface vehicle, USV)对目标进行近距离探测。敌方目标需要向港口要地靠近并避开我方的USV, 我方USV需要尽可能接近目标以便探查或拦截, 由此双方形成对抗形态。
USV在探查过程中, 为了能快速接近目标且不被发现, 需要制定合理的探查策略。现有的无人平台探查策略研究方法主要有如下3种。1) 设定探查策略, 建立搜潜模型[2]。无人平台通过获得的目标信息, 建立相应探查模式如扩展圆形阵、扩展螺旋阵、扩展直线阵等, 然后通过蒙特卡洛方法验证双方距离、航速等因素变化时, 不同探查模式对探查结果的影响, 由此选出最佳探查模式。2) 建立水声传感网络系统[3]。提前布放传感器, 利用节点感应形成水下监视网, 根据反馈的目标信息, 由多个UUV组成编队, 自上而下接力探测形成对应探查策略。3) 利用人工智能强化学习寻找最优探查策略[4-7]。依据建立的人工神经网络模型, 在无人平台任务中预测其行为并制定策略, 实现最优决策。
上述方法需要试验数据足够充足, 但是由于水下环境的复杂性以及双方态势的不确定性, 需要不断耗费人力、物力去获取大量数据; 此外, 上述方法没有综合考虑敌我双方的行动方式, 我方无法根据敌方行动及时修正策略。对此, 有研究者引入博弈论进行建模。博弈论是研究多个个体或集体之间在对局中利用相关方的策略而实施对应策略的学科, 它考虑博弈中个体的预测行为和实际行为, 并研究各方的优化策略, 依赖的试验数据较少, 被广泛应用于军事研究。
文献[8]研究了多无人机协同作战问题, 介绍了以博弈论为基础的算法子系统, 完成了一定态势下敌我双方的作战策略求解; 文献[9-11]建立了无人机攻防对抗问题的不完全信息动态博弈模型, 利用零和博弈求解方法或粒子群算法求解得到混合策略纳什均衡解, 即最优策略序列; 文献[12]将反映敌方决策态度的多个博弈子情景综合得到全时域情景, 通过分析各个情景的纳什均衡预测敌方采取的均衡策略。
文中通过固定式声呐获取一段时间内敌方目标的行驶路径, 利用粒子滤波方法预测一段轨迹, 而后建立USV与目标的博弈模型, 模拟双方在每一时刻的决策, 随后用算例仿真USV与入侵目标的接近过程, 找到USV的目标点与探查策略, 最后通过目标的实际轨迹验证目标点以及探查策略的准确性。
1. USV与敌方目标的博弈模型
USV探查敌方目标的过程可以看作二人零和博弈过程, 双方只有一方能获胜, 即USV成功探查敌方目标或者敌方目标逃脱。
1.1 博弈模型
博弈模型中包括参与者、行动策略集以及支付函数, 每项具体含义如下。
参与者N: {USVr, 敌方目标b};
行动策略集S: 包括USV的速度变化和角度变化。
1) 速度变化: {加速, 减速, 不变}(每次变化0.1 m/s, 速度范围为0~1.6 m/s);
2) 角度变化: 以USV现在的位置坐标为原点, 横、纵坐标与以固定式声呐为原点建立的直角坐标系平行。在4个象限中, 可选的角度为{0°, 15°, 30°, 45°, 60°以及一个可按照实际情况调整的角度
$ \theta $ }。角度示意图如图1所示。支付函数
$ {f_r} $ : 当我方选择第i种行动策略, 敌方选择第j种行动策略后, 可以计算得出我方USV的支付值$ {f_r}\left( {i,j} \right) $ 。1.2 态势函数
不同行动策略组合对应的支付值表示采取该策略组合后形成的对抗态势对我方的有利程度, 支付值越大表示对我方越有利。因此, 支付值应该以对抗态势为依据, 通过建立态势函数评估不同态势对我方的有利程度。文中的态势函数考虑敌我双方距离和相对角度。
1) 距离优势函数
设我方初始位置坐标为(xr0, yr0), 敌方初始坐标为(xb0, yb0), 则有
$$ d = \sqrt {{{\left( {xr0 - xb0} \right)}^2} + {{\left( {yr0 - yb0} \right)}^2}} $$ (1) $$ {S_d} = {{\left( {{d_{\max }} - d} \right)} \mathord{\left/ {\vphantom {{\left( {{d_{\max }} - d} \right)} {{d_{\max }}}}} \right. } {{d_{\max }}}} $$ (2) 其中, d表示r与b的直线距离, 考虑到USV携载声呐可探测的极限距离, 文中以
$ {d_{\max }} $ 作为最远距离进行归一化处理。对于USV来说, d越短, 距离优势函数$ {S_d} $ 越大, 即越有利于我方USV探查目标。2) 角度优势函数
USV携载的声呐探测范围就是以行驶方向(基准线)为对称轴的
$ {\alpha _{\max }} $ 扇面(见图2)。将USV与目标连线形成向量, 分析该向量与USV行驶方向向量的夹角。当图中目标1的夹角$ {\alpha _1} > {\alpha _{\max }}/2 $ 时, 目标不在探测范围, USV无法查证目标, 角度优势函数为0; 当目标2的夹角$ 0 \leqslant {\alpha _2} \leqslant {{{\alpha _{\max }}} \mathord{\left/ {\vphantom {{{\alpha _{\max }}} 2}} \right. } 2} $ 时, 目标在探测范围内, USV可以查证目标, 且夹角越小, 查证效果越好。由此, 角度优势函数表达式为
$$ {S_\alpha } = \left\{ \begin{gathered} \frac{{{{{\alpha _{\max }}} \mathord{\left/ {\vphantom {{{\alpha _{\max }}} 2}} \right. } 2} - \alpha }}{{{{{\alpha _{\max }}} \mathord{\left/ {\vphantom {{{\alpha _{\max }}} 2}} \right. } 2}}}\quad \quad \;\alpha \leqslant {\alpha _{\max }}/2 \\ \quad \quad 0\quad \quad \quad \quad \,\;{\kern 1pt} \alpha > {\alpha _{\max }}/2 \\ \end{gathered} \right. $$ (3) 从式(3)看出, 随着
$ \alpha $ 不断减小, 角度优势函数$ {S_\alpha } $ 越来越大, 当$ \alpha = 0 $ 时, 达到最大值1。综上, 给出博弈前的态势函数
$$ S1 = {\varepsilon _1} \cdot {S_d} + {\varepsilon _2} \cdot {S_\alpha } $$ (4) 其中,
$ {\varepsilon _1},{\varepsilon _2} $ 为权重系数, 且满足$ {\varepsilon _1} + {\varepsilon _2} = 1 $ , 具体取值可以根据实际情况调整。随后, USV选择第i个行动策略, 目标选择第j个行动策略, 设行动后USV和目标的位置坐标为
$ \left( {xr,yr} \right) $ 和$ \left( {xb,yb} \right) $ , 可以计算得出此时的态势函数S2。则我方支付值为$$ {f_r}\left( {i,j} \right) = S2 - S1 $$ (5) 对应不同的行动策略组合有不同的支付值, 由此得到我方USV的支付函数。每次决策时, USV根据敌方的行动, 选择使得自己支付值最大的行动策略进行实施。
1.3 探查策略
根据USV携载的声呐及摄像头识别范围, 假设目标与USV的距离在
$ {K_{rb}} $ 范围内时可被成功探查。基于此,文中设定若USV在某一位置进行查证时,目标一定会进入USV查证范围,就称该查证位置为目标点。显然, 目标行驶路径周围的点都满足该条件, 因此目标点不唯一。文中根据USV行动机制共设定3种探查策略。
1) 迎击策略: 该策略是向目标驶来方向的正前方靠近, 主要探查到目标的首部位置, 我方可能会在目标的探查范围内, 该策略行驶路径最短, 但在行驶中, 目标容易发现我方靠近从而采取规避动作, 导致目标丢失。
2) 侧向策略: 该策略是从侧边向目标靠近, 主要探查到目标的侧向位置, 可以获得较多目标特征, 便于判断目标种类, 该策略路径适中, 同时可以避免USV行驶中产生的尾流对固定式声呐识别目标行驶轨迹产生影响。
3) 尾追策略: 该策略采取绕远方式, 从目标后方靠近, 行驶路径最长, 但在行驶过程中避开目标, 不易被发现, 方便追踪处置。
当3种策略都可以按时接近目标点时, 为了避免目标发现USV从而采取规避动作, 优先选择侧向或尾追的隐蔽策略。其中, 侧向策略主要用于识别目标, 尾追策略主要用于跟踪目标。
3种探查策略见图3。目标在报警点时, 固定式声呐发现目标, 随后开始追踪记录目标轨迹, 同时我方USV接收指令前往目标点; 蓝色线为目标的行驶轨迹, 红色线为目标采取不同策略时的行驶轨迹; 当目标行驶在目标点附近时, 我方USV采取不同策略, 相对于目标的位置也不同。
文中主要以到达目标点时USV与目标的相对位置来分辨探查策略。将目标与USV连线形成向量, 根据该向量与目标行驶方向的夹角大小判断策略。如图4所示, 设目标行驶方向与USV连线方向的夹角为
$ \alpha $ , 当$ \alpha \leqslant {30^{\text{o}}} $ 时, USV在目标的正前方, 能够探查目标的首部方向, 认定为迎击策略; 当$ {30^{\text{o}}} < \alpha \leqslant {120^{\text{o}}} $ 时, USV在目标的两侧, 能探查到目标的侧向位置, 同时能保证接近过程不在目标探测范围内, 认定为侧向策略; 当$ {120^{\text{o}}} < \alpha \leqslant {180^{\text{o}}} $ 时, USV在目标后方, 认定为尾追策略。2. 粒子滤波方法预测敌方目标轨迹
粒子滤波方法是通过一组具有权重的随机样本(粒子)来表示随机事件的后验概率, 从含有噪声或不完整的观测序列估计出动态系统的状态。该方法在非线性系统表现出的优越性使得其被广泛应用于雷达跟踪、全局定位等方面。
2.1 粒子滤波方法
粒子滤波方法在t=0时对粒子进行初始化, 随机生成粒子并设置权重。然后重复以下步骤: 预测—更新粒子—权重—重采样—输出。每一步具体过程如下。
1) 预测。根据系统的变化过程, 预测各个粒子的状态。
2) 更新粒子权重。根据观测值更新粒子的权重。假设观测值为
$ \left( {x,y} \right) $ , 其噪声为高斯分布, 第i个粒子的坐标为$ \left( {{x_i},{y_i}} \right) $ , 则其权重的计算公式为$$ dist = \sqrt {{{\left( {{x_i} - x} \right)}^2} + {{\left( {{y_i} - y} \right)}^2}} $$ (6) $$ \omega \left( i \right) = {1 \mathord{\left/ {\vphantom {1 {\sqrt {2{\text{π}}R} \times {{\text{e}}^{ - {{dis{t^2}} / {2R}}}}}}} \right. } {\sqrt {2{\text{π}}R} \times {{\text{e}}^{ - {{dis{t^2}} / {2R}}}}}} $$ (7) 其中, dist是第i个粒子与观测值的距离, 权重公式中R为观测值的协方差。所有粒子权重计算完后, 对权重进行归一化处理。
3) 重采样。复制一部分权重高的粒子, 同时去掉一部分权重低的粒子。考虑第i个粒子, 先产生1个随机权重, 从第1个粒子权重开始相加, 若一部分连续粒子的权重之和能够大于随机权重, 就把权重之和中最后1个粒子对应的位置赋值给第i个粒子。该方法如同转转盘, 按照权重比例对转盘进行分割, 当某个粒子权重较大时, 产生的随机权重落在相应区间的概率就大, 被复制的概率也较大。此外, 需要说明的是, 这样的重采样过程不是都复制权重大的粒子, 也有可能复制权重小的粒子, 在一定程度上保证了粒子的多样性。
4) 输出。通过粒子的几何中心位置确定当前的状态估计值。假设共有N个粒子, 第i个粒子的坐标为
$ \left( {{x_i},{y_i}} \right) $ , 则所有粒子的几何中心位置坐标为$$ {x_{{\text{center}}}} = \sum\limits_{i = 1}^N {{x_i}} /N $$ (8) $$ {y_{{\text{center}}}} = \sum\limits_{i = 1}^N {{y_i}} /N $$ (9) 最后通过不断重复上述过程直到某一时刻T终止, 由此得到粒子滤波估计值的变化过程。
2.2 预测轨迹过程
通过固定式声呐获取目标在一段时间内的行动轨迹, 数据形式为目标相对声呐的(方位, 距离)。为方便计算, 以声呐为原点, 声呐图像的0°方向为x轴正向建立直角坐标系, 将(方位, 距离)转换为一系列的xy直角坐标。然后以真实轨迹为依据, 用粒子滤波方法对xy坐标进行预测, 得出目标后续的可能行驶轨迹。
以下述轨迹为例进行计算(该轨迹为200 s真实试验数据)。如图5所示, 目标在(−99.65, −468.80)处被固定式声呐发现, 随后持续追踪。目标为了不被发现, 采用规避动作, 故行动轨迹呈“S”型曲线。
取前30 s真实轨迹数据, 用粒子滤波方法预测40 s数据, 然后将其与真实轨迹进行对比, 结果如图6所示。图中蓝色线为采用粒子滤波方法拟合实际轨迹的结果, 蓝色*为粒子滤波方法预测出的40 s轨迹, 是目标的可能行驶方向, 此处近似于线性运动。通过对比可知粒子滤波方法对线性轨迹的拟合与预测效果较好。
下边对目标的“S”型轨迹进行预测, 仍以前30 s真实数据为依据, 预测120 s数据, 然后将其与真实轨迹进行对比, 结果如图7所示。
由图7看出, 粒子滤波方法预测的结果整体与目标的“S”型轨迹基本吻合, 只在转弯部分与实际轨迹有一点偏差, 但通过验证, 误差在可接受范围内。
综上所述, 用粒子滤波方法对目标的轨迹预测与实际轨迹有较好的拟合效果。后续在仿真试验中, 设定每隔30 s重新读取实际数据进行预测, 以此减少预测偏差对博弈结果的影响。
3. 算例
设敌方目标从远处驶来, 固定式声呐发现目标并报警, 随后将不断追踪的目标位置向USV反馈。USV根据位置信息不断向目标靠近, 完成探查。通过建立直角坐标系, 设定我方USV初始位置为(0, −100) m, 初始速度为1 m/s(一般USV速度为2~3 kn); 敌方目标初始位置为 (−99.65, −468.83) m。
3.1 支付函数构建
建立博弈模型, 参与者集合为{我方USV, 敌方目标}, 策略集与前述相同。根据已知条件计算博弈前的态势函数S1。
1) 距离优势函数
根据固定式声呐可探测的极限距离, 选取
$ {d_{\max }} = 1\;000 $ m, 则距离优势函数为$$ d = \sqrt {{{99.65}^2} + {{\left( { - 100 + 468.83} \right)}^2}} = 236.79\,{\text{m}} $$ (10) $$ {S_d} = \left( {1\;000 - 236.79} \right)/1\;000 \approx 0.76\;{\text{m}} $$ (11) 2) 角度优势函数
USV携载声呐的水平探测角度
$ {\alpha _{\max }} = {130^{ \circ} } $ , 设我方USV的初始方向向量为(0, −100), 敌我双方连线的向量为(−99.65, −368.83)(敌方初始位置与我方初始位置的差值), 后续USV行驶方向定义为当前时刻与前一时刻位置的差值。对应的夹角
$ \alpha $ 和角度优势函数为$$ \begin{gathered} \alpha = \frac{{180}}{{\text{π}}} \times \arccos \frac{{ - 99.65 \times 0 + 100 \times 368.83}}{{\sqrt {{{100}^2}} \times \sqrt {{{99.65}^2} + {{368.83}^2}} }} \approx 15.11{{^\circ }} \\ \;\;\; \\ \end{gathered} $$ (12) $$ {S_\alpha } = \frac{{65 - 15.11}}{{65}} \approx 0.77{{^\circ }} $$ (13) 态势函数的权重系数可根据实际情况调整, 文中更注重距离, 故取系数为
$ {\varepsilon _1} = 0.85 $ 和$ {\varepsilon _2} = 0.15 $ , 则博弈前态势函数S1=0.76。然后假设USV选择策略组合{加速, 向第3象限的30°方向前进}, USV速度变为1.1 m/s。相应的位置横纵坐标变化由三角函数计算得出, 则下一秒位置为$$ xr = 0 - 1.1 \times \cos \left( {{\text{π}}/6} \right) = - 0.95\;{\text{m}} $$ (14) $$ yr = - 100 - 1.1 \times \sin \left( {{\text{π}}/6} \right) = - 100.55\;{\text{m}} $$ (15) 再从固定式声呐处读取目标下一时刻的位置信息为(−98.59, −467.83), 由此可得博弈后态势函数S2=0.57。则策略组合{加速, 向第3象限的30°方向前进}对应的支付值为
$ {f_r} = $ S2−S1=−0.19。该支付值为负表示USV采取对应策略后, 我方不好探查目标, 双方对抗形势比博弈前更差。同理, 可以计算其他策略组合对应的支付值, 而后USV根据敌方行动选择支付值最高的行动策略实施, 随后双方进入下一时刻博弈, 以此类推。
每次试验读取目标30 s最新轨迹数据, 并用粒子滤波方法预测120 s数据, 然后USV依据该150 s数据不断决策, 向目标靠近寻找目标点。算法设定若未找到目标点, 则输出USV博弈30 s后的位置坐标, 以该点为初始条件, 读取新的数据重新预测博弈; 若找到目标点, 则验证目标实际轨迹与预测轨迹偏差大小, 若偏差大则输出USV 30 s后的行驶点重新预测博弈, 若偏差小则输出目标点和对应的探查策略。
3.2 双方对抗过程
仍以2.1节中试验数据为例模拟双方的博弈对抗过程。目标的第1组30 s数据读取后, 双方在120 s时间内的对抗情况如图8所示。
图中, 红色实线为USV行驶轨迹, 蓝色实线为目标实际轨迹, 蓝色虚线为预测轨迹。此时未找到目标点, 则输出USV在30 s之后的位置坐标为(−3.99, −133.47) m。
然后利用目标新轨迹数据预测博弈(对抗图与图8类似, 此处不再赘述), 因为两者距离较远, 未找到目标点, 试验输出30 s后USV位置坐标为(−11.30, −166.16) m。利用新数据预测博弈得到结果如图9所示。
图中绿色点为找到的目标点, 其坐标为(−59.46, −310.90) m。在预测轨迹, 最初目标以直线形式前进, USV采用迎击方式靠近; 随后目标执行转弯动作, 为防止被目标发现, USV采取绕远方式。在到达目标点时, USV在目标后方, 则输出探查策略为尾追策略。
将实际轨迹(图中绿色线)与预测轨迹对比得到图10。
由图10看出, 目标实际轨迹与预测轨迹接近。为了验证目标点的有效性, 取目标实际轨迹上的一点: (−61.04,−314.00) m, 该点与目标点距离r为
$ \sqrt {{{1.58}^2} + {{3.1}^2}} = 3.48 $ m, 探查距离小于10 m, 可以成功探查。同时, 可以发现该目标点是在预测轨迹的后半段, USV有足够的时间行驶到目标点, 并投放水下机器人进行查证。4. 结论
采用粒子滤波方法对目标轨迹进行预测, 然后引入博弈模型模拟敌方目标进入我方固定式声呐可探测范围后, USV不断接近目标的过程, 最后对双方的对抗过程进行仿真研究。由结果可以看出, 仿真得到的目标点与实际轨迹数据较为接近, 探查策略能帮助USV以最合适的方法接近目标而不被发现, 由此验证了文中方法对无人平台近距离查证可疑目标的适用性。
从试验结果可以看出, 粒子滤波方法虽然能较好的拟合“S”型曲线, 但在实际操作时需要不断调整相关参数。文中目标的轨迹主要为直线型或“S”型, y坐标变化趋势一般为递增, x坐标变化趋势为先增大后减小或者先减小后增大, 通过粒子滤波方法和不断修正可以得到较为准确的预测。但在实际中目标可能会采取更加复杂的路径, 后续将对粒子滤波方法进行改进, 使得其对目标轨迹的预测更为准确。
-
-
[1] 杜方键, 张永峰, 张志正, 等. 水中无人作战平台发展现状与趋势分析[J]. 科技创新与应用, 2019(27): 1-9.Du Fang-Jian, Zhang Yong-Feng, Zhang Zhi-Zheng, et al. Development Status and Trend Analysis of Underwater Unmanned Combat Platform[J]. Technology Innovation and Application, 2019(27): 1-9. [2] 祝超, 蔡颂, 王志强. 水下无人平台应召搜潜效能研究[C]//水下无人系统技术高峰论坛. 西安: 水下无人系统学报编辑部, 2018. [3] 周亮, 周浩, 张勇明. 美军水下无人作战系统开发现状及启示[J]. 中阿科技论坛(中英文), 2021(10): 12-14.Zhou Liang, Zhou Hao, Zhang Yong-ming. Development Status and Enlightenment of Underwater Unmanned Combat System of the U.S.Army[J]. China-Arab States Science and Technology Forum, 2021(10): 12-14. [4] 冯振宇, 彭倍, 王刚. 基于图神经网络技术的水下无人系统智能决策研究[J]. 舰船科学技术, 2020, 42(23): 63-66. doi: 10.3404/j.issn.1672-7649.2020.12.012Feng Zhen-Yu, Peng Bei, Wang Gang. Research on Intelligent Decision of Underwater Unmanned System Based on Graph Neural Network Technology[J]. Ship Science and Technology, 2020, 42(23): 63-66. doi: 10.3404/j.issn.1672-7649.2020.12.012 [5] 张法帅, 李宝安, 阮子涛. 基于深度强化学习的无人艇航行控制[J]. 计测技术, 2018, 38(z1): 207-211.Zhang Fa-Shuai, Li Bao-An, Ruan Zi-Tao. Navigation Control of Unmanned Craft Based on Deep Reinforcement Learning[J]. Metrology & Measurement Technology, 2018, 38(z1): 207-211. [6] 马晶, 刘鹏, 仵钇征, 等. 深度强化学习应用于海战场多智能体对抗问题研究[J]. 舰船科学技术, 2021, 43(S1): 123-129.Ma Jing, Liu Peng, Wu Yi-Zheng, et al. Research on the Application of Deep Reinforcement Learning to Multi-Agent Confrontation in Sea Battlefield[J]. Ship Science and Technology, 2021, 43(S1): 123-129. [7] 刘斌, 吕良栋. 基于BP网络的强化学习在作战仿真中的应用[C]//中国电子学会电子系统工程分会第五届军事信息软件与仿真学术研讨会论文集. 徐州: 中国电子学会, 2006. [8] 付超, 杨善林. 基于博弈论的多无人机协同作战仿真系统[J]. 系统仿真学报, 2009, 21(9): 2591-2594. doi: 10.16182/j.cnki.joss.2009.09.055Fu Chao, Yang Shan-Lin. Multi UAV Cooperative Combat Simulation System Based on Game Theory[J]. Journal of System Simulation, 2009, 21(9): 2591-2594. doi: 10.16182/j.cnki.joss.2009.09.055 [9] 惠一楠, 朱华勇, 沈林成. 无人机攻防对抗不完全信息动态博弈方法研究[J]. 兵工自动化, 2009, 28(1): 4-7. doi: 10.3969/j.issn.1006-1576.2009.01.002Hui Yi-Nan, Zhu Hua-Yong, Shen Lin-Cheng. Research on Dynamic Game Method of UAV Attack Defense Confrontation with Incomplete Information[J]. Ordnance Industy Automation, 2009, 28(1): 4-7. doi: 10.3969/j.issn.1006-1576.2009.01.002 [10] 赵明明. 不确定信息下多无人机空战动态博弈策略研究[D]. 沈阳: 沈阳航空航天大学, 2013. [11] 李迎春, 程建博, 于尧. 基于博弈论的无人机战场攻防策略求解模型[J]. 兵器装备工程学报, 2017, 38(6): 70-72. doi: 10.11809/scbgxb2017.06.015Li Ying-Chun, Cheng Jian-Bo, Yu Yao. Solution Model of UAV Battlefield Attack and Defense Strategy Based on Game Theory[J]. Journal of Ordance Equipment Engineering, 2017, 38(6): 70-72. doi: 10.11809/scbgxb2017.06.015 [12] 姜鑫, 杜正军, 王长春, 等. 不确定性环境下的多阶段军事对抗决策方法[J]. 系统工程理论与实践, 2013, 33(8): 2163-2168. doi: 10.3969/j.issn.1000-6788.2013.08.034Jiang Xin, Du Zheng-Jun, Wang Chang-Chun, et al. Multi-stage Military Confrontation Decision Making Method in Uncertain Environment[J]. Systems Engineering-Theory & Practice, 2013, 33(8): 2163-2168. doi: 10.3969/j.issn.1000-6788.2013.08.034 期刊类型引用(0)
其他类型引用(1)
-