Deep Learning-Based Method for Key Signal Recognition during Underwater Explosions
-
摘要: 水下爆炸试验采集的数据量庞大并掺杂大量无用数据, 为保护数据不受爆炸的影响, 试验时需要优先将关键数据识别并存储。针对此, 文中提出一种将特征提取方法和深度学习模型相结合的关键信号识别模型, 以提升对关键信号识别的准确率。首先, 研究了不同预处理方法对水下爆炸加速度信号趋势项的去除效果, 并用实验证明小波包分解法、经验模态分解法和高通滤波法可较好地提升模型的识别性能; 其次, 为使提取的特征更有利于区分爆炸段与非爆炸段, 提出一种针对水下爆炸加速度信号的基于类间方差比的特征提取方法, 基于水下爆炸加速度信号数据可知, 相比于Log Mel特征, 文中提出的特征用K-means方法分类准确率提升约4.92%; 最后, 引入添加SE-Res2Block模块的ECAPA-TDNN模型, 该模型具有更好的识别准确率, 以文中提出的特征作为输入, 识别准确率达99.31%。Abstract: The amount of data collected from underwater explosion tests is enormous, which is mixed with a large amount of useless data. To protect the data from the effects of the explosion, it is crucial to prioritize the recognition and storage of key data during the test. In response to this, a key signal recognition model that combined feature extraction methods with deep learning models was proposed to improve the accuracy of key signal recognition. Firstly, different preprocessing methods for removing trend components from underwater explosion acceleration signals were studied. Existing test results demonstrated that wavelet packet decomposition, empirical mode decomposition, and high-pass filtering could significantly enhance the model’s recognition performance. Secondly, to make the extracted features more conducive to distinguishing between explosion and non-explosion segments, a feature extraction method based on the inter-class variance ratio for underwater explosion acceleration signals was proposed. According to the underwater explosion acceleration signal data, it was found that compared to Log Mel features, the proposed features improved classification accuracy by approximately 4.92% using the K-means method. Finally, the ECAPA-TDNN model incorporating the SE-Res2Block module was introduced, ensuring better recognition accuracy. With the proposed features as input, the recognition accuracy reached 99.31%.
-
Key words:
- underwater explosion /
- feature extraction /
- deep learning /
- key signal recognition
-
0. 引言
为应对爆炸对船舶造成的严重威胁, 船舶需要具备更强的抗爆抗冲击能力[1]。现阶段, 虽然有限元仿真等数值分析方法得到了飞速发展[2], 但水下爆炸现象涉及到温度传递以及固液气之间的复杂相互作用, 数学物理模型很难准确模拟爆炸过程的实质。因此, 水下爆炸试验对于评估毁伤威力和船舶抗冲击能力至关重要, 在试验中获取的压力、加速度及应变等数据, 对于研究船舶抗爆和抗冲击能力起着关键作用。例如, Jin等[3]基于水下爆炸冲击波和二次气泡脉冲的特性, 研究了水下爆炸震源函数的数学表达式; Chung等[4]通过水下爆炸试验和仿真, 对动力和鞭打现象进行了验证, 并将试验与仿真结果进行了比较, 可为水下爆炸仿真技术的改进提供参考; 杜志鹏等[5]针对近距离水下爆炸, 提出泡沫覆盖层钢板水下爆炸气泡射流防护机理。
水下爆炸试验的数据量巨大, 但关键数据仅集中在其中几秒内, 而爆炸可能引起原始数据的损坏, 需要在实时测量过程中优先将含有爆炸信息的部分信号识别并存储, 并设计关键信号识别算法对爆炸时刻进行判别, 这就需要对爆炸信号的时频特征深入挖掘。针对此, 范志强等[6]提出, 由于爆炸信号具有突变快、持续时间短的特点, 属于较宽频率分布的非平稳随机信号, 无法通过傅里叶变换(Fourier transform, FT)获取爆炸信号的全部特征; Rezaee等[7]用改进的经验模态分解法提高了对振动信号分解的精度, 更好地分离出与频率相似的成分; 蒲坚等[8]对实测爆炸信号进行了时频分析, 画出小波重构波形, 找出相关优势频段, 并表示优势频段包含了振动信号70%以上的能量; Rogério等[9]结合短时傅里叶变换(short-time FT, STFT)和功率比统计量, 并应用于振动信号, 展示了对振动信号进行时频分析的新方法。
目前常用的水下爆炸信号识别方法主要是基于人为设定的阈值进行人工经验判别, 系统通过实时触发方式来分析采集到的数据[10]。但由于试验的复杂性, 存在较多不确定因素, 爆炸产生的强烈震动、异物的撞击等都容易造成采集系统的虚警, 增大数据传输压力。贾振华等[11]提出一种基于瞬态压力信号识别方法, 根据超压峰值标记有效突变, 再依次判断上升时间和正作用时间, 这种方法虽一定程度降低了虚警概率, 但也提高了漏报率, 对水下爆炸信号的适用性不强; Prior[12]提出一种基于接收者操作特征(receiver operating characteristic, ROC)方法研究漏报与检测概率之间的权衡, 从ROC曲线中导出性能的数值度量, 并通过调整似然参数来最大化这一度量, 但本质上还是以阈值法对关键信号进行识别。
近年来, 基于深度学习的智能化信号处理方法被广泛应用。Zha等[13]研究了多信号检测和调制分类算法, 提出一种用于多信号检测和调制信号识别的深度学习框架; Zhong等[14]构建了一个集成的深度学习卷积神经网络(convolutional neural networks, CNN)模型, 将白鲸检测分类为真或假; Júlio等[15]结合专家知识与CNN进行了被动声呐的信号分类。
水下爆炸加速度信号是由冲击加速度测量所得, 是各种测量类型中最主要的物理量, 主要用于获取人员、设备和系统的冲击输入和响应[16]。对于水下爆炸加速度信号来说, 其关键数据为爆炸发生前后约2 s的数据, 其主要频段集中在5~30 kHz, 为使得该关键数据段能够被准确识别, 需要设计一套用于水下爆炸加速度信号的关键数据识别算法。
针对此, 文中研究了不同预处理方法对水下爆炸加速度信号趋势项的去除效果, 受Log Mel特征的启发, 基于类间方差比提出一种全新的时频特征, 该特征更利于水下爆炸加速度信号的处理。同时, 针对水下爆炸加速度信号, 首先进行了必要的预处理和特征提取, 包括对信号进行分帧处理, 将其划分为爆炸段和非爆炸段, 并提取相应的特征; 随后, 将经过特征提取的数据输入到深度神经网络中进行训练, 并建立了一个识别性能优秀的能够有效识别爆炸信息的二分类模型, 为后续的毁伤分析提供了可靠的数据基础。
1. 趋势项去除算法
水下爆炸信号由于试验环境复杂, 通常会有较多的干扰影响, 其中趋势项的干扰尤其严重。趋势项定义为信号中周期大于采样长度的频率成分, 通常表现为线性或缓慢变化的趋势误差。在时域信号中轻微的零点漂移就会产生不实际的速度、位移数据。为实现高准确率、低漏报虚警率的分类模型, 需要先对数据进行趋势项去除预处理。
水下爆炸信号包括加速度信号、自由场压力信号、壁压信号和应变信号。文中仅对加速度信号的关键信号识别算法进行研究。图1为某条典型水下爆炸加速度信号。对水下爆炸加速度信号积分, 可得到速度与位移曲线, 通过速度、位移曲线的最终归零程度判断是否存在趋势项, 从速度、位移曲线的变化情况也可看出去除趋势项后信号的畸变程度。
对图1所示加速度信号分别用5阶多项式拟合法[16]、经验模态分解(empirical mode decomposition, EMD)法[17]、11阶小波包分解(wavelet packet decomposition, WPD)法[18]以及截止频率为50 Hz的切比雪夫一型高通滤波法去除趋势项后, 分别积分1次和2次得到速度和位移时域曲线, 如图2和图3所示(图2中, 采集到的加速度信号为电压, 故所得速度信号和位移信号的单位分别为V·s和V·s2。
从图2与图3可以看出, 切比雪夫一型高通滤波法、WPD法和多项式拟合法对该条加速度信号的趋势项干扰去除效果均较好, 这是由于经过几种算法处理后, 加速度信号的速度和位移曲线最终都基本归零, 而EMD法无法有效去除趋势项, 留有较大残余。多项式拟合法虽使得末尾值归零, 但对信号产生了一定畸变, 出现了一些与真实情况不符的速度和位移信息。另取几条水下爆炸加速度信号, 用上述方法分别处理, 取开始5 000点和结束5 000点的均值以及加速度、速度和位移的峰值, 所得结果如表1所示。
表 1 趋势项去除后加速度信号各评价指标对比Table 1. Evaluation indicators of acceleration signal after trend item removal算法名称 5 000点均值 加速度峰值
/V速度峰值
/(V·s)位移峰值
/(V·s2)速度起始
/(V·s)速度结束
/(V·s)位移起始
/(V·s2)位移结束
/(V·s2)EMD法 4.36×10−6 7.96×10−4 3.47×10−8 1.08×10−3 2.93×10−1 8.00×10−4 1.09×10−3 高通滤波法 1.39×10−5 1.41×10−5 1.73×10−7 3.70×10−5 3.00×10−1 4.29×10−5 3.72×10−5 WPD法 2.99×10−6 2.86×10−6 3.96×10−8 7.00×10−6 3.02×10−1 4.45×10−5 7.04×10−6 多项式拟合法 −3.19×10−7 −1.05×10−5 −8.17×10−10 1.37×10−7 3.09×10−1 3.47×10−4 3.93×10−5 无处理 3.50×10−4 7.20×10−2 2.92×10−6 9.43×10−2 2.81×10−1 7.24×10−2 9.52×10−1 由表1结合图2、图3可得出结论: EMD法去除效果较差, 信号留有较大的趋势信息, 位移与速度最终都无法归零, 且频域上在零值附近仍存在较大的幅值, 时域速度峰值与速度尾端均值相似, 说明信号仍存在较大的趋势项; 多项式拟合法首尾段归零效果最好, 但相较于高通滤波和WPD法, 多项式拟合法的峰值出现了明显的异常, 在位移和速度上有较大的畸变, 产生了不真实的速度与位移信息, 同样在低频存在较大的幅值; 高通滤波法和WPD法均可使速度和位移基本归零, 且从速度位移图像上无严重畸变, 两者的处理效果最好, 两者之中WPD法的首尾段归零程度更高, 即趋势项去除效果更好, 在低频部分的幅值也相对较小, 故后续实验中使用WPD法作为特征提取前趋势项的预处理方法。
2. 特征提取方法
为提高识别准确率, 需要提取区分度较大的特征作为模型的输入。文中采用Log Mel和类间方差比特征提取方法, 并与单边频谱特征、功率谱密度(power spectral density, PSD)特征、小波包分解能量(WPD energy, WPDE)特征的提取方法进行对比。
2.1 Log Mel特征提取
Log Mel[19]是一种常用于语音信号处理和音频处理的特征提取方法, 该方法可将原始音频信号转换为一组捕获有音频中重要信息的特征向量, 如语音的频谱特征。Log Mel的生成流程如图4所示。
水下爆炸信号的爆炸段区别于非爆炸段应关注的频段与说话人识别不同, 且特征在不同维度上的贡献度大小不同, 因此需在原始Log Mel的基础上重新设计滤波器组, 使得识别准确率更高。
2.2 类间方差比计算
类间方差比是一种用于比较不同组或类别之间方差相对大小的统计指标。在提取出水下爆炸信号的Log Mel特征后, 用类间方差比对爆炸段特征中每一个维度的贡献度进行打分, 去除Log Mel特征中不重要的成分, 增加重要的成分。
但区别于常规方法的是, 文中用非爆炸段的均值代替总体均值来计算类间方差比, 具体实现方法如下。
1) 对水下爆炸分帧信号
$y(n)$ 提取Log Mel特征得到一个$K \times N$ 维的Log Mel特征矩阵F, 而后对F做Min-Max标准化, 使得特征中系数的范围在[0, 1]区间, 得到新的特征矩阵为$$ {{\boldsymbol{F}}_1} = \left( {\begin{array}{*{20}{c}} {{a_{11}}}& \ldots &{{a_{1N}}} \\ \vdots & \ddots & \vdots \\ {{a_{K1}}}& \cdots &{{a_{KN}}} \end{array}} \right) $$ (1) 式中: K为分帧的帧数; N为Log Mel特征的维度数。根据标签将
${{\boldsymbol{F}}_1}$ 分为爆炸段特征矩阵${{\boldsymbol{F}}_{1l}}$ ($ l=1, 2,\cdots,\ L $ , L为爆炸段总量)和${{\boldsymbol{F}}_{0m}}$ ($ m=1,2,\cdots,\ M $ , M为非爆炸段总量)。2) 对所有数据中每个维度的各帧系数求和
$$ {s_k} = \sum\limits_{n = 1}^N {{a_{kn}}} ,k = 1,2, \cdots ,K $$ (2) 式中:
${s_k}$ 为第k维特征在所有帧上的和; akn为第k帧第n个维度的系数。 则第k维特征在爆炸段上的均值为$$ {\mu _{1k}} = \frac{1}{L}\sum\limits_{n = 1}^L {s_{k,n}^1} $$ (3) 式中,
$s_{k,n}^1$ 为爆炸段第n条分帧数据的${s_k}$ 。${s_k}$ 在所有非爆炸段数据的均值为$$ {\mu _{0k}} = \frac{1}{M}\sum\limits_{i = 1}^M {s_{k,i}^{}} $$ (4) 3) 爆炸段的类内方差可表示为
$$ S_E^2(k) = \frac{1}{L}\sum\limits_{n = 1}^L ( s_{k,n}^1 - {\mu _{1k}}{)^2},k = 1,2, \cdots ,K $$ (5) 非爆炸段的类内方差同理为
$$ S_N^2(k) = \frac{1}{M}\sum\limits_{h = 1}^M ( s_{k,h}^0 - {\mu _{0k}}{)^2},k = 1,2, \cdots ,K $$ (6) 这里用非爆炸段的类内方差替代总体方差, 其中
$s_{k,h}^0$ 为非爆炸段第h条分帧数据的$ {s_k} $ 。$S_E^2(k)$ 表征了爆炸段类内的第k维特征与各自第k维中心位置的离散程度,$S_N^2(k)$ 表征了非爆炸段的第k维特征与第k维中心位置的离散程度。则可以计算类间方差比
$$ F(k) = \frac{{S_E^2(k)}}{{S_N^2(k)}} $$ (7) $F(k)$ 越接近于1, 说明爆炸段与非爆炸段在这一特征的区分度越小, 即特征贡献度越低。2.3 频谱特征提取
文中提取了单边频谱作为频谱特征, 利用快速傅里叶变换(fast FT, FFT)将信号由时域转换到频域, 且
$$ F(j\omega ) = \sum\limits_{n = 0}^{N - 1} {x(n){{\text{e}}^{ - j\omega n}}} ,\;0 \leqslant \omega \leqslant {\text{π }} $$ (8) 式中: N为信号序列的长度;
$x(n)$ 为时域信号;${{\text{e}}^{ - j\omega n}}$ 为旋转因子序列。对上式取绝对值, 即得到所需的幅度谱$$ \mathrm{Amplitude}(A(\omega ))=|F(j\omega )| $$ (9) 2.4 PSD特征提取
功率谱反映单位频带内信号功率随频率的变化情况, 文中采用Welch法[20]估计PSD。首先将长度为N的数据x(t),
$t = 0,\;1,\; \cdots ,\;T - 1$ 分成L段, 每段有M个数据, 第i段数据为$$ {x_i}(t) = x(t + iM - M),\;0 \leqslant t \leqslant M,\;1 \leqslant i \leqslant L $$ (10) 然后把窗函数w(t)加到每一个数据段上, 求出每一段的周期图, 第i段的周期图为
$$ {I_i}(\omega ) = \frac{1}{U}{\left| {\sum\limits_{t = 0}^{M - 1} {{x_i}} (t)w(t){{\text{e}}^{ - jwt}}} \right|^2},\;i = 1,2, \cdots ,M - 1 $$ (11) 其中, U为归一化因子, 且
$$ U = \frac{1}{M}\sum\limits_{t = 0}^{M - 1} {{w^2}(t)} $$ (12) 将每一段周期图之间近似看成互不相关, 得到最终的功率谱估计表达式
$$ {P_{xx}}({{\text{e}}^{j\omega }}) = \frac{1}{L}\sum\limits_{i = 1}^{{I_d}} {{I_i}(\omega )} $$ (13) 2.5 WPDE特征提取
WPD[21]由一对递归的带通滤波器实现, 输入的水下爆炸信号为
$x(n) = u_0^0(n)$ , j为WPD的阶数, 公式如下$$ u_{j + 1}^{2p}(n) = \sum\limits_{k = - \infty }^{ + \infty } {h(k - 2n)u_j^p(k)} $$ (14) $$ u_{j + 1}^{2p + 1}(n) = \sum\limits_{k = - \infty }^{ + \infty } {l(k - 2n)u_j^p(k)} $$ (15) 式中: k为小波函数的位置参数,
$h( \cdot )$ 为高通滤波器;$g( \cdot )$ 为低通滤波器;$u_j^p( \cdot )$ 为经过j次WPD得到的第p个子带的分量;$u_{j + 1}^{2p}( \cdot )$ 为$u_j^p( \cdot )$ 的高频部分;$u_{j + 1}^{2p + 1}( \cdot )$ 为$u_j^p( \cdot )$ 的低频部分。再计算每一层WPD高频部分的能量, 即
$$ W_m^h = \sum\limits_{k = 1}^n {{{\left[ {u_m^{2p}(k)} \right]}^2}} ,m = 1,2, \cdots ,j $$ (16) 则最后一层分解出的低频部分能量为
$$ W_j^l = \sum\limits_{k = 1}^n {{{\left[ {u_j^{2p + 1}(k)} \right]}^2}} $$ (17) 由此可得j维高频部分能量与一维低频部分能量, 拼接成j+1阶的WPDE特征。
3. 基于类间方差比的水下爆炸信号分类实验
文中提出一种基于类间方差比的Log Mel特征与深度学习网络相结合的水下爆炸关键信号识别模型, 模型共包含3个模块: 特征提取、分类器构建及目标识别。其整体框架如图5所示。图中: Conv1D表示一维卷积; ReLU为激活函数; BN(batch normalization)为归一化池化; k为卷积核大小; d为膨胀系数; SE(squeeze-excitation)为压缩与激活; ASP(attentive statistics pooling)为注意力统计池化; FC(fully connected)为全连接层。
3.1 数据集生成
文中采用2组不同实验数据, 第1组数据含有较大的噪声和趋势项干扰, 信噪比较小; 第2组数据噪声较小, 信噪比较大, 2组数据的示例如图6所示。
典型水下爆炸数据较少, 而训练又需要较大的数据量, 这就需要扩充数据集。高斯白噪声的振幅遵循高斯分布, 在频域有平坦的功率谱密度, 文中通过对信号随机添加峰值信噪比20~30 dB的高斯白噪声来扩充数据集。对图6(b)添加噪声后, 信号时域波形变化如图7所示。
将2组实验数据在数据集扩充后, 共计26 656条分帧数据用于实验。
实验数据在不同数据集中的分布情况见表2。先将2组实验数据中共取3 572条数据用作测试集, 再将剩余第1组数据和第2组数据分别按照各自约8∶2的比例划分为训练集和验证集, 这就保证了验证集与测试集数据的独立性。
表 2 2组实验数据在不同数据集的分布Table 2. Distribution of two experimental data in different data sets数据集 第1组 第2组 共计 训练集 6 400 12 864 19 264 验证集 1 600 3 820 4 820 测试集 1 000 2 572 3 572 3.2 基于类间方差比的FBank特征提取
文中提出的基于类间方差比的FBank特征提取是通过计算特征值与1的差值来衡量的, 差值越大表示该维度特征在爆炸段与非爆炸段的区分度越大, 该维度特征的贡献度越高。以50维的Log Mel特征为例, 用表2中全部数据集生成的类间方差比得分如图8所示。
图中, 横坐标为特征的维度, 对应的纵坐标为该维度的得分情况。以6%为界, 将红色虚线内12维~17维、35维~50维处的三角滤波器的贡献占比较低, 这部分对应的频率范围约为 6~11 kHz和30~100 kHz, 将这部分中的滤波器数量减少, 红色虚线之外的频段滤波器数量增加, 改进前后三角滤波器布放结果如图9所示。相比于梅尔滤波器组, 文中的设计更加灵活, 允许滤波器根据特定应用场景调整其形状和分布, 使得滤波器的关键频率分辨率更高, 从而提高了整体性能, 改进后的滤波器组更符合水下爆炸加速度信号的应用场景。
3.3 分帧帧长选取
要完成对某一段信号的识别, 需要对信号进行分帧处理。分帧后的信号可分为爆炸段与非爆炸段, 其中爆炸段为包含有爆炸时刻的分帧段落, 非爆炸段则为不包含爆炸时刻的分帧段落。
由于水下爆炸信号数据量较少, 若选择较大的帧长会导致训练数据不足, 而选用较短的帧长又可能导致爆炸的特征超出选取窗的长度。对典型的水下爆炸加速度数据的持续时长进行统计表明: 爆炸持续时间均在0.05 s内, 其中爆炸持续时长为0.02 s内的数据占比80%以上, 选用0.1 s的帧长(2×104个点, 采样率200 kHz)即可完整展现爆炸的特征, 并留出一些空余确保信号的平滑处理和留有余量。由于水下爆炸信号属于瞬时事件, 且需要避免神经网络对窗中固定位置特征过于关注, 因此选用0.025 s作帧移(5 000个点), 这样既尽可能保证了特征的完整性, 又有足够多的样本数量进行训练。
3.4 深度学习模型
深度神经网络已在计算机视觉、语音识别和自然语言处理等领域取得了很好的效果, 其用于水下爆炸信号的关键信号识别, 本质上也是二分类任务: 将分帧后的信号段分成爆炸段与非爆炸段, 将准备好的数据集经过训练生成关键信号识别分类器。由于水下环境情况复杂, 不同水下爆炸信号所含噪声等干扰情况不一, 要求模型具有很好的鲁棒性和容错性, 而深度学习方法能够自动从数据中学习特征, 通过层次化结构逐渐提取更高层次的特征, 这种层级特征提取有助于模型理解数据的复杂结构, 进而提高模型的性能。
实验选择添加了SE-Res2Block结构的ECAPA(extended context-aware parallel attention)-TDNN(time delay neural network)等深度学习模型, SE-Res2Block结构将残差结构[22]与挤压激励模块[23]相互结合, 通过在帧级层之间添加残差连接来增强特征的表现力, 构建了分层剩余连接来处理多尺度特征。而TDNN结构可以更好地捕获输入特征中的时序信息, 在判别爆炸时刻的任务条件下具有出色的表现能力。其整体结构如图10(a)所示, SE-Res2Block结构如图10(b)所示。其中Res2Conv1D为结合了残差结构的一维卷积, SE-Block为挤压激励模块。
此外, 文中还使用了较为传统的CNN、长短期记忆(long short-term memory, LSTM)网络以及ResNet18模型进行训练。并尝试了支持向量机(support vector machine, SVM)、K最近邻(K-nearest neighbor, KNN)分类算法以及K-means等机器学习方法。表3为文中实验所用模型的具体参数, 其中: Conv(·)表示卷积操作; Cin为输入通道数; Cout为输出通道数; k为卷积核大小; s为步长; p为填充大小; MaxPool(·)为最大值池化操作; Linear为全连接层, LSTM中输入维度为50, 隐藏层维度为128, 层数为4, 输出维度为2, ResNet和ECAPA-TDNN均使用所引用论文中的参数, 且将输出维度设为2。
表 3 实验所用不同模型参数对比Table 3. Parameters of models模型 结构参数 CNN Conv(Cin=1, Cout=4, k=5, s=2, p=1+ReLU+MaxPool(k=2, s=2))
Conv(Cin=4, Cout=16, k=5, s=2, p=1+ReLU+MaxPool(k=2, s=2))
Conv(Cin=16, Cout=32, k=3, s=2, p=1+ReLU+MaxPool(k=1, s=1))
Conv(Cin=32, Cout=64, k=3, s=2, p=1+ReLU+MaxPool(k=1, s=1))
Linear(64$ \times $32, 512)+ReLU+Linear(512, 32)+ReLU+Linear(32, 2)LSTM LSTM(input_dim=50, hidden_dim=128, layer_dim=4, output_dim=2) ResNet18 ResNet18[22](num_classes=2) ECAPA-TDNN ECAPA-TDNN[24](num_classes=2) 3.5 实验参数
实验的硬件设备为3块具有24 GB显存的NVIDIA 3090Ti GPU, 采用PyTorch框架进行训练, 数据集的采样率为200 kHz。以准确率作为指标, 即分类正确的样本数占总体样本数的比例, 初始学习率为0.001, 学习率每10个轮次(epoch)降为原有的0.5, 样本大小(batch size)设为32, 每组实验进行5次, 每次训练500个epoch, 取验证集上准确率最高的实验结果在测试集上进行测试, 最终结果取5次测试集结果的均值±标准差。
3.6 实验结果分析
在实验时需要确定一段信号特征提取时的分帧帧长。用3.3节中方法将长信号分为20×104点的短信号段, 在进行特征提取时, 以4 000点为帧长, 400点为帧移, 将2×104点的短信号段分为41帧。
3.6.1 不同趋势项去除方法对分类结果的影响
前文初步研究了不同趋势项去除方法的性能, 并给出了加速度信号积分后获得的速度与位移的首尾段均值数据。这里采用不同的趋势项去除方法对原始数据进行处理后再提取41×50的Log Mel特征, 并用4层CNN模型训练, 取验证集准确率最高的5次结果在测试集上测试。测试结果见表4。
表 4 不同特征提取方法识别准确率对比Table 4. Recognition accuracy comparison of different features extraction combination预处理方法 准确率 EMD法 96.25%±0.05% 多项式拟合法 92.75%±1.54% 高通滤波法 96.34%±0.02% WPD法 96.39%±0.05% 无处理 90.34%±1.22% 使用多项式拟合法的分类准确率相比于其他方法下降了约3%~4%, 在短信号的处理过程中, 用多项式拟合会影响爆炸信息的表征效果; 而EMD法、WPD法和高通滤波法则较好地保留了爆炸信息, 其分类结果相似, 且相比于不去除趋势项时, 分类准确率提升了5%~6%。
3.6.2 Log Mel特征改进效果对比
实验对水下爆炸加速度信号采用基于类间方差比的FBank特征提取方法, 为充分验证该特征对水下爆炸加速度信号的表征能力, 提取Log Mel特征进行对比实验。
选取41×50的Log Mel特征(其中41为帧数, 50为特征维度数)和文中特征作为分类器的输入, 实验具体参数采用3.5节中实验参数, 实验结果如表5所示。表中粗体数值表示文中提出的特征与模型组合文中的FBank特征相比于Log Mel特征的识别准确率有一定提升, 常规机器学习方法准确率约为96.40%, 而相比于基线的机器学习方法(SVM、KNN), 文中的FBank特征+ ECAPA-TDNN模型准确率高达99.31%, 且在相同特征维度下相比Log Mel特征提升了约2.03%的准确率。
表 5 50维特征识别准确率Table 5. Recognition accuracy of 50-dimensional features模型 准确率 Log Mel特征 文中特征 ECAPA-TDNN 97.28%±0.02% 99.31%±0.09% LSTM 96.45%±0.12% 97.83%±0.02% ResNet18 96.78%±0.02% 97.16%±0.10% CNN 96.39%±0.05% 96.40%±0.04% SVM 96.39%±0.07% 96.72%±0.01% KNN 96.50%±0.05% 96.56%±0.07% K-means 73.80%±2.49% 78.72%±1.02% K均值聚类算法是一种迭代求解的聚类分析算法[25], 作为无监督聚类方法, 文中提出的FBank特征在该方法上提升了约4.92%, 说明改进后非爆炸段与爆炸段特征之间的差距更加明显, 即FBank特征更容易被用于区分水下爆炸加速度信号的爆炸段和非爆炸段。
3.6.3 其他特征的训练结果
除了Log Mel特征之外, 文中使用了信号分类中其他常用的特征进行对比实验。
WPDE与3.6.2节中的分帧方式相结合, 采用11阶WPD特征, 则生成的WPDE特征的维度为41×12。一维特征中的频谱特征与PSD特征均为2 048维(FFT点数选用4 096点, 取频谱的0.5)。
所以共选用3种其他特征+模型的组合, 分别是WPDE+ECAPA-TDNN、频谱特征+CNN_1d以及PSD+CNN_1d。不同组合的训练结果对比如表6所示。
表 6 不同特征提取组合的识别准确率对比Table 6. Recognition accuracy comparison of different features extraction combination特征+模型 准确率 一维频谱(2 048维)+CNN_1d 93.75%±1.35% PSD(2 048维)+CNN_1d 91.25%±2.24% WPDE(41×12维)+ECAPA-TDNN 95.75%±0.35% 文中特征(41×50维)+ECAPA-TDNN 99.31%±0.09% WPDE特征的频率分辨率相比Log Mel特征较低, 提升分解阶数需要的计算量较大, 作为通用的信号处理方式, 其处理效果略差于Log Mel方法, 文中提出的特征提取方法的识别准确率高出WPDE特征约3.56%。
由于爆炸信号具有突变快、持续时间短的特点, 属于较宽频率分布的非平稳随机信号, 通过FT获取的爆炸信号特征并不能完全表征爆炸信号的特点。与文中方法不同的是, PSD与频谱特征都表征频率信息, 对时间序列没有表征能力, 模型从特征中获取的信息更少, 更易过拟合, 其容错性和鲁棒性都相对较差。
4. 结束语
文中基于深度学习方法, 针对当前水下爆炸关键信号识别方法中特征表征能力不够强、识别精度不理想的问题, 从特征预处理、特征提取和识别方法等方面展开研究。
首先研究了不同趋势项去除方法对分类结果的影响, 使用多项式拟合法的分类准确率相比于其他方法下降了3%~4%, 而EMD法、高通滤波法和WPD法对分类结果无明显影响, 识别准确率相差不超过1%, 且相比于无处理方法识别准确率提升了5%~6%。其次, 研究了基于深度学习的水下爆炸关键信号识别技术, 提出了一种基于类间方差比的FBank特征, 对比可知其分类准确率提升了约4.92%, 说明特征在爆炸段与非爆炸段有了更加明显的区分, 而传统频谱和PSD方法由于仅有频域信息, 并不能完全表征爆炸的特征, 在训练中出现过拟合的情况, 对水下爆炸关键信号判别任务来说, 该方法容错性较差。在尝试多种深度学习与机器学习模型之后可知, 在ECAPA-TDNN模型基础上输入文中特征准确率比改进前提升了约2.03%, 达到了99.31%的均值准确率, 满足了对水下爆炸关键信号准确识别的要求。文中研究可为水下爆炸信号的识别工作提供参考, 未来可以从损失函数入手, 进一步提高识别的准确率。
-
表 1 趋势项去除后加速度信号各评价指标对比
Table 1. Evaluation indicators of acceleration signal after trend item removal
算法名称 5 000点均值 加速度峰值
/V速度峰值
/(V·s)位移峰值
/(V·s2)速度起始
/(V·s)速度结束
/(V·s)位移起始
/(V·s2)位移结束
/(V·s2)EMD法 4.36×10−6 7.96×10−4 3.47×10−8 1.08×10−3 2.93×10−1 8.00×10−4 1.09×10−3 高通滤波法 1.39×10−5 1.41×10−5 1.73×10−7 3.70×10−5 3.00×10−1 4.29×10−5 3.72×10−5 WPD法 2.99×10−6 2.86×10−6 3.96×10−8 7.00×10−6 3.02×10−1 4.45×10−5 7.04×10−6 多项式拟合法 −3.19×10−7 −1.05×10−5 −8.17×10−10 1.37×10−7 3.09×10−1 3.47×10−4 3.93×10−5 无处理 3.50×10−4 7.20×10−2 2.92×10−6 9.43×10−2 2.81×10−1 7.24×10−2 9.52×10−1 表 2 2组实验数据在不同数据集的分布
Table 2. Distribution of two experimental data in different data sets
数据集 第1组 第2组 共计 训练集 6 400 12 864 19 264 验证集 1 600 3 820 4 820 测试集 1 000 2 572 3 572 表 3 实验所用不同模型参数对比
Table 3. Parameters of models
模型 结构参数 CNN Conv(Cin=1, Cout=4, k=5, s=2, p=1+ReLU+MaxPool(k=2, s=2))
Conv(Cin=4, Cout=16, k=5, s=2, p=1+ReLU+MaxPool(k=2, s=2))
Conv(Cin=16, Cout=32, k=3, s=2, p=1+ReLU+MaxPool(k=1, s=1))
Conv(Cin=32, Cout=64, k=3, s=2, p=1+ReLU+MaxPool(k=1, s=1))
Linear(64$ \times $32, 512)+ReLU+Linear(512, 32)+ReLU+Linear(32, 2)LSTM LSTM(input_dim=50, hidden_dim=128, layer_dim=4, output_dim=2) ResNet18 ResNet18[22](num_classes=2) ECAPA-TDNN ECAPA-TDNN[24](num_classes=2) 表 4 不同特征提取方法识别准确率对比
Table 4. Recognition accuracy comparison of different features extraction combination
预处理方法 准确率 EMD法 96.25%±0.05% 多项式拟合法 92.75%±1.54% 高通滤波法 96.34%±0.02% WPD法 96.39%±0.05% 无处理 90.34%±1.22% 表 5 50维特征识别准确率
Table 5. Recognition accuracy of 50-dimensional features
模型 准确率 Log Mel特征 文中特征 ECAPA-TDNN 97.28%±0.02% 99.31%±0.09% LSTM 96.45%±0.12% 97.83%±0.02% ResNet18 96.78%±0.02% 97.16%±0.10% CNN 96.39%±0.05% 96.40%±0.04% SVM 96.39%±0.07% 96.72%±0.01% KNN 96.50%±0.05% 96.56%±0.07% K-means 73.80%±2.49% 78.72%±1.02% 表 6 不同特征提取组合的识别准确率对比
Table 6. Recognition accuracy comparison of different features extraction combination
特征+模型 准确率 一维频谱(2 048维)+CNN_1d 93.75%±1.35% PSD(2 048维)+CNN_1d 91.25%±2.24% WPDE(41×12维)+ECAPA-TDNN 95.75%±0.35% 文中特征(41×50维)+ECAPA-TDNN 99.31%±0.09% -
[1] 刘建湖. 舰船非接触水下爆炸动力学的理论与应用[D]. 无锡: 中国船舶科学研究中心, 2002. [2] CHUNG J, SEO Y Y, YOUNG S. Shin dynamic and whipping response of the surface ship subjected to underwater explosion: experiment and simulation[J]. Ships and Offshore Structures, 2020, 15(10): 1129-1140. doi: 10.1080/17445302.2019.1706924 [3] JIN P, XU H L, WANG H C, et al. On the seismic source function of an underwater explosion[J]. Geophysical Journal International, 2023, 232(1): 485-503. [4] CHUNG J, SEO Y, SHIN Y S. Dynamic and whipping response of the surface ship subjected to underwater explosion: experiment and simulation[J]. Ships and Offshore Structures, 2019, 15(10): 1129-1140. [5] 杜志鹏, 张磊, 谌勇, 等. 泡沫覆盖层对水下爆炸气泡射流防护机理缩比试验研究[J]. 应用数学和力学, 2022, 43(5): 569-576.DU Z P, ZHANG L, CHEN Y, et al. Reduced-scale experiment study on the protective mechanism of foam coating against underwater explosion bubble jet[J]. Applied Mathematics and Mechanics, 2019, 43(5): 569-576. [6] 范志强, 马宏昊, 沈兆武, 等. 水下连续脉冲冲击波的声学特性[J]. 爆炸与冲击, 2013, 33(5): 501-506.FAN Z Q, MA H H, SHEN Z W, et al. Acoustic characteristics of underwater continuous pulse shock waves[J]. Explosion and Shock Waves, 2013, 33(5): 501-506. [7] REZAEE M, TARAGHI O A. Improving empirical mode decomposition for vibration signal analysis[J]. Proceedings of the Institution of Mechanical Engineers, Part C. 2017, 231(12): 2223-2234. [8] 蒲坚, 崔硕, 黄丹, 等. 山岭隧道爆破振动信号小波包及能量分析[J]. 交通科技, 2018(2): 61-65.PU J, CUI S, HUANG D, et al. Wavelet packet and energy analysis of vibration signals in mountain tunnel blasting[J]. Journal of Traffic Science and Technology, 2018(2): 61-65. [9] ROGÉRIO T, WENDERSON N L, PAULO R A, et al. Digital signal processing for self-vibration monitoring in grinding: A new approach based on the time-frequency analysis of vibration signals[J]. Measurement, 2019, 145: 71-83. doi: 10.1016/j.measurement.2019.05.079 [10] 李洪涛. 基于无线数据传输的水下爆炸压力遥测系统硬件设计与实现[D]. 长沙: 国防科学技术大学, 2002. [11] 贾振华, 王文廉. 瞬态压力测试系统中信号识别触发的设计与实现[J]. 火工品, 2016(1): 57-60.JIA Z H, WANG W L. Design and implementation of signal recognition trigger in transient pressure testing system[J]. Chinese Journal of Explosives & Propellants, 2016(1): 57-60. [12] PRIOR M K. An optimization approach to the automatic identification of signals originating from underwater explosions[J]. The Journal of the Acoustical Society of America, 2008, 123(5): 3900. [13] ZHA X, PENG H, QIN X, et al. A deep learning framework for signal detection and modulation classification[J]. Sensors, 2019, 19: 4042. [14] ZHONG M, MANUEL C, RAHUL D, et al. Beluga whale acoustic signal classification using deep learning neural network models[J]. J. Acoust. Soc. Am, 2020, 147(3): 1834-1841. doi: 10.1121/10.0000921 [15] JÚLIO d C V F, NATANAEL N d M J, JOSÉ M d S. Deep learning models for passive sonar signal classification of military data[J]. Remote Sens, 2022, 14: 2648. doi: 10.3390/rs14112648 [16] 王乾勋, 闫明, 杜志鹏, 等. 趋势项误差的低频极限特征理论模型与处理方法研究[J]. 振动与冲击, 2018, 37(12): 239-243.WANG Q X, YAN M, DU Z P, et al. Research on low-frequency limit characteristic theoretical model and processing method of trend item error[J]. Journal of Vibration and Shock, 2018, 37(12): 239-243. [17] 徐卓飞, 刘凯. 基于极值符号序列分析的EMD端点效应处理方法[J]. 振动、测试与诊断, 2015, 35(2): 309-315, 400.XU Z F, Liu K. Endpoint effect handling method for EMD based on extremum sign sequence analysis[J]. Vibration, Testing and Diagnosis, 2015, 35(2): 309-315, 400. [18] 董晨懿, 陈梦英, 许伟杰, 等. 一种改进的水下爆炸冲击波信号修正方法[J]. 声学技术, 2022, 41(3): 376-381.DONG C Y, CHEN M Y, XU W J, et al. An improved correction method for underwater explosion shock wave signals[J]. Acoustic Technology, 2022, 41(3): 376-381. [19] STEVENS S S, VOLKMANN J, NEWMAN E B. The mel scale equates the magnitude of perceived differences in pitch at different frequencies[J]. Journal of the Acoustical Society of America, 1937, 8(3): 185-190. doi: 10.1121/1.1915893 [20] 伊鑫, 曲爱华. 基于Welch算法的经典功率谱估计的Matlab分析[J]. 现代电子技术, 2010, 33(3): 7-9.YI X, QU A H. Matlab analysis of classical power spectral density estimation based on welch algorithm[J]. Modern Electronic Technology, 2010, 33(3): 7-9. [21] 张志伟, 杨可林, 冯志常, 等. 基于小波包倒谱系数和ECAPA-TDNN的调度说话人确认研究[J]. 山东电力技术, 2023, 50(2): 52-57.ZHANG Z W, YANG K L, FENG Z C, et al. Research on speaker verification in power dispatching based on wavelet packet cepstral coefficient and ECAPA-TDNN[J]. Shandong Electric Power, 2023, 50(2): 52-57. [22] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, NV, USA: IEEE, 2016: 770-778. [23] HU J, SHEN L, SUN G. Squeeze and excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City, UT, USA: IEEE, 2018: 7132-7141. [24] DESPLANQUES B, THIENPONDT J, DEMUYNCK K. ECAPA-TDNN: Emphasized channel attention, propagation and aggregation in TDNN based speaker verification[EB/OL]. (2020-05-15)[2023-10-10]. http://arxiv.org/abs/2005.07143v3. [25] 吴夙慧, 成颖, 郑彦宁, 等. K-means算法研究综述[J]. 现代图书情报技术, 2011(5): 28-35.WU S H, CHENG Y, ZHENG Y N, et al. A review of K-means algorithm research[J]. Modern Library and Information Technology, 2011(5): 28-35. -