论文题名: | 基于强化学习的无人自行车运动控制研究 |
关键词: | 无人自行车;运动控制;惯性轮;动力学;强化学习 |
摘要: | 自行车作为一种高效的轮式交通工具,因其能在狭窄、杂乱、复杂的环境中有良好的机动性,在交通、物流运输、抢险救灾、生活娱乐以及军事作战等领域有着广泛的应用前景。无人自行车属于典型的非线性、强耦合的欠驱动系统,基于传统的控制策略需要对自行车精准建模,但其参数调控困难。为了克服上述缺点,提高无人自行车的运动控制性能,本文利用强化学习无模型决策的控制优势,开展了基于深度强化学习算法的无人自行车运动控制研究。 首先,根据拉格朗日方程建立了无人自行车系统的动力学模型,在此基础上推导了系统的状态方程,确定了该无人自行车具有能观能控性,获得了系统的设计参数。据此,设计了基于辅助惯性轮平衡控制的无人自行车机械系统,然后,结合位姿传感器、伺服舵机、树莓派控制板以及舵机控制器等硬件设备研制了无人自行车的实物。 然后,分析了强化学习算法的学习原理与马尔科夫决策过程的数学机理;结合无人自行车系统控制的连续空间运动特性,讨论了DQN算法、Deep-Q-Learing算法、DDPG算法以及TD3算法的优劣性及适用条件。由于TD3算法解决了高估值偏差问题,可增强强化学习神经网络拟合的准确性,故本文选择TD3算法作为系统的运动控制器。并且针对无人自行车特性以及该算法收敛性和样本多样性较差弊端提出了设计奖励函数、改变抽样方式以及优化神经网络框架等改进措施。 其次,基于Gazebo和ROS+OpenAI分别构建了惯性轮辅助控制无人自行车仿真模型及强化学习仿真环境,确定了无人自行车运动状态量、行动值、奖励函数以及神经网络参数等环境变量值,基于TD3强化学习算法进行了常规路面下原地驻车和驶向目标点的仿真模拟研究。 最后,为了验证所选择的深度强化学习对无人自行车系统运动控制的有效性,开展了无人自行车实物系统的实验研究。实验结果表明,所设计的控制算法能够实现无人自行车的原地驻车与驶向目标点的运动控制,并且具有一定的抗干扰能力与鲁棒性。 |
作者: | 刘东兴 |
专业: | 机械工程 |
导师: | 刘宇 |
授予学位: | 硕士 |
授予学位单位: | 哈尔滨工业大学 |
学位年度: | 2021 |