• 中国科技核心期刊
  • JST收录期刊
  • Scopus收录期刊
  • DOAJ收录期刊


宋健 聂来森 陶醉 袁奇恩东

宋健, 聂来森, 陶醉, 等. 基于元学习与强化学习的跨域自组织网络流量测量优化方法[J]. 水下无人系统学报, 2024, 32(4): 668-677 doi: 10.11993/j.issn.2096-3920.2024-0094
宋健, 聂来森, 陶醉, 等. 基于元学习与强化学习的跨域自组织网络流量测量优化方法[J]. 水下无人系统学报, 2024, 32(4): 668-677 doi: 10.11993/j.issn.2096-3920.2024-0094
SONG Jian, NIE Laisen, TAO Zui, YUAN Qiendong. Traffic Measurement Optimization for Cross-Domain Ad Hoc Networks Based on Meta-Learning and Reinforcement Learning[J]. Journal of Unmanned Undersea Systems, 2024, 32(4): 668-677. doi: 10.11993/j.issn.2096-3920.2024-0094
SONG Jian, NIE Laisen, TAO Zui, YUAN Qiendong. Traffic Measurement Optimization for Cross-Domain Ad Hoc Networks Based on Meta-Learning and Reinforcement Learning[J]. Journal of Unmanned Undersea Systems, 2024, 32(4): 668-677. doi: 10.11993/j.issn.2096-3920.2024-0094


基金项目: 国家自然科学基金面上项目(62171378).

    宋健:宋 健(1999-), 男, 在读博士, 主要研究方向为网络流量预测


    聂来森(1985-), 男, 博士, 副教授, 主要研究方向为跨域通信组网、网络安全.

  • 中图分类号: TJ6; U675.7

Traffic Measurement Optimization for Cross-Domain Ad Hoc Networks Based on Meta-Learning and Reinforcement Learning

  • 摘要: 跨域自组织网络是一种将不同介质上的节点进行自组织、网络拓扑自适应的网络。在跨域通信网络中, 直接测量技术可获得准确的端到端网络流量信息。但跨域网络中部分节点的低算力和低存储特性, 影响了所有节点运行网络流量测量进程。针对此, 文中提出一种基于元学习与近端策略优化的网络流量测量优化方法, 该方法根据上一时隙网络运行环境, 来确定下一时隙执行网络流量测量的节点集合, 目标是在尽可能少的节点上执行测量进程从而获取尽可能多的网络流量信息。文中同时通过3个网络数据集对所提方法进行仿真验证, 实验结果表明, 基于元学习和强化学习的跨域自组织网络流量测量优化算法可以有效选择流经流量大的节点, 具有较快的收敛速度和测量效率。


  • 图  1  跨域自组织网络示意图

    Figure  1.  Schematic diagram of cross-domain Ad Hoc network

    图  2  网络流量测量优化示意图

    Figure  2.  Schematic diagram of network traffic measurement optimization

    图  3  强化学习示意图

    Figure  3.  Schematic diagram of reinforcement learning

    图  4  PPO算法流程图

    注: SGD表示随机梯度下降(stochastic gradient descent)

    Figure  4.  Flow chart of PPO algorithm

    图  5  强化学习MAML算法流程图

    Figure  5.  Flow chart of reinforcement learning MAML algorithm

    图  6  基于元学习和PPO算法的网络流量测量优化算法流程图

    Figure  6.  Flow chart of network traffic measurement optimization algorithm based on meta-learning and PPO algorithm

    图  7  基于元学习与PPO的流量测量优化方法示意图

    Figure  7.  Schematic diagram of traffic measurement optimization method based on meta-learning and PPO

    图  8  Abilene网络拓扑结构图

    Figure  8.  Topological structure of Abilene network

    图  9  GÉANT网络拓扑结构图

    Figure  9.  Topological structure of GÉANT network

    图  10  NS3仿真节点移动场景

    Figure  10.  Scene of NS3 simulation node movement

    图  11  不同网络中3种方法仿真结果比较

    Figure  11.  Comparison of simulation results of three methods in different networks

    图  12  不同网络中2种方法仿真结果比较

    Figure  12.  Comparison of simulation results between two methods in different networks

    图  13  无线自组织网络元学习与正态分布初始参数训练结果对比图

    Figure  13.  Comparison of meta-learning and normal distribution initial parameter training results in wireless Ad Hoc networks

    表  1  NS3仿真无线自组织网络参数

    Table  1.   Parameters of NS3 simulated wireless Ad Hoc network

    节点个数$7 \times 7$
    网络运行时间/s2 700
    网络移动边界限制在$450 \times 450 \times 20$的长方体内
    单个节点移动边界限制在$50 \times 50 \times 20$的长方体内
    表  2  基于元学习与PPO网络的测量优化结构参数

    Table  2.   Structural parameters for measurement optimization based on meta-learning with PPO network

    策略网络输入层神经单元个数: M
    FC-3: 全连接层
    神经单元个数: 100
    激活函数: ReLU函数
    输出层神经单元个数: N
    激活函数: SoftMax函数
    评价网络输入层神经单元个数: M
    FC-3: 全连接层
    神经单元个数: 100
    激活函数: ReLU函数
    输出层神经单元个数: 1(奖励值)
    表  3  仿真过程关键参数

    Table  3.   Key parameters in the simulation process

    动作网络学习率0.000 1
    评论网络学习率0.000 1
    奖励衰退因子$ \gamma $0.9
图(13) / 表(3)
  • 收稿日期:  2024-05-28
  • 修回日期:  2024-07-05
  • 录用日期:  2024-07-15
  • 网络出版日期:  2024-07-16


