论文题名: | 基于强化学习的智能干扰决策方法研究 |
关键词: | 雷达对抗;干扰决策;强化学习 |
摘要: | 在现代战争中,随着电子信息与人工智能技术的不断发展,雷达对抗逐步趋向于智能化与多功能化,雷达工作模式逐渐增多,抗干扰能力逐渐增强。传统的干扰决策方法由于其决策过程长、干扰效率低下等缺点已经难以适用于日益复杂的现代战场环境。针对这一问题,为了提高雷达对抗过程中的干扰决策性能,本文研究了基于强化学习的智能干扰决策方法,该方法能够适用于雷达对抗过程中干扰系统在干扰样式和干扰参数上的决策。仿真实验表明,针对多功能雷达的干扰本文的研究方法具有更好的干扰性能。论文的主要研究工作如下: 首先分析了雷达对抗的过程,对比了传统雷达对抗与智能雷达对抗的优缺点,研究了相关的强化学习算法,进行了相关仿真实验。在此基础上参考智能雷达干扰过程建立了基于Q-学习的干扰决策模型,并通过仿真实验验证了基于Q-学习算法进行智能干扰决策的合理性,在此基础上进一步分析了算法参数、状态转移概率和先验知识对Q-学习算法性能的影响。 其次,针对干扰参数的决策问题,建立了多臂匪徒干扰模型,介绍了一种的干扰匪徒(JammingBandit,JB)算法,针对其离散化过程导致的平均收益低、算法准确率低等问题,本文采用了逐级离散和对干扰参数收益的加权估计方法,对JB算法做出了一定的改进,提出了基于逐级离散的多臂匪徒干扰(JammingBanditbasedonStepwiseDiscretization,JBSD)算法,应用于两点源交叉眼干扰场景的理论分析与数值仿真实验表明JBSD算法相比JB算法具有的更高的平均收益和更快的收敛速度。 最后,针对实际情况下干扰系统对于干扰样式与干扰参数的决策需求,将基于强化学习的智能干扰过决策过程分为两步,结合Q-学习算法与JBSD算法,给出了一种双层强化学习的干扰决策方法。分析了雷达状态转移概率,观测收益与实际收益的差异等环境因素对双层强化学习方法决策性能的影响。实验结果表明双层强化学习的干扰决策方法易受雷达状态转移概率影响,但对观测收益与实际收益的差异具有较好的抗干扰性。 |
作者: | 毛少卿 |
专业: | 电子与通信工程 |
导师: | 王军 |
授予学位: | 硕士 |
授予学位单位: | 哈尔滨工业大学 |
学位年度: | 2021 |