主权项: |
1.一种基于强化学习的半自主挖掘系统,其特征是,包括设置在挖掘机上的激光雷达、动臂油缸长度传感器、斗杆油缸长度传感器、铲斗油缸长度传感器、动臂倾角传感器、斗杆倾角传感器、铲斗倾角传感器、铲斗重量传感器、动臂油缸压力传感器、斗杆油缸压力传感器、铲斗油缸压力传感器、动臂油缸电液控制阀、斗杆油缸电液控制阀、铲斗油缸电液控制阀和可编程控制器; 动臂油缸长度传感器、斗杆油缸长度传感器、铲斗油缸长度传感器分别对应地安装在动臂、斗杆和铲斗的油缸上,对应采集动臂、斗杆和铲斗的油缸伸缩长度; 动臂油缸压力传感器、斗杆油缸压力传感器、铲斗油缸压力传感器分别对应地安装在动臂、斗杆和铲斗的油缸上,对应采集动臂、斗杆和铲斗的油缸压力; 动臂倾角传感器、斗杆倾角传感器、铲斗倾角传感器分别对应地安装在动臂、斗杆和铲斗上,对应采集动臂、斗杆和铲斗的倾角; 激光雷达安装在动臂下方,用于获取动臂与挖掘物的距离; 铲斗重量传感器安装在铲斗上,用于采集铲斗中挖掘物料质量; 可编程控制器用于接收上述各个传感器采集的信号,并向各个电液控制阀发送控制信号控制动臂、斗杆和铲斗的动作。 2.根据权利要求1所述的基于强化学习的半自主挖掘系统,其特征是,可编程控制器内采用强化学习和神经网络结合的方法训练得到挖掘过程训练模型,根据挖掘过程训练模型控制自动执行挖掘任务。 3.一种基于强化学习的半自主挖掘方法,其特征是,包括以下步骤: 步骤1:强化学习感知:在强化学习决策时间点,获取挖掘机当前状态st, 步骤2:强化学习决策:对每一单步时间,检测当前挖掘机状态st和决策行为ai时的BP神经网络的输出Q(st,ai),根据贪婪策略选择奖赏值最高的决策行为a1执行; 步骤3:Q值更新:执行决策行为a1,若过程中没有障碍物,得到立即奖赏值r,同时观测下一状态st+1,更新BP神经网络的输出Q(st,a1)值为Q’(st,a1),其中Q(st,a1)为奖赏值最高的决策行为a1时的BP神经网络的输出值; 若过程中有障碍物,则选取决策行为ai中的其他决策行为,重复步骤1至步骤2; 步骤4:判断挖掘动作是否完成,完成后根据物料质量给予奖赏值;若未完成挖掘,则重复步骤3至步骤4直到挖掘动作完成; 步骤5:利用误差信号δ=Q’(st,a1)-Q(st,a1),更新BP神经网络的权值和阈值,使BP神经网络实际输出逼近或等于理想的输出,直到BP神经网络完全收敛,训练完成,得到最终挖掘过程训练模型。 4.根据权利要求3所述的基于强化学习的半自主挖掘方法,其特征是,步骤1中,挖掘机当前状态st包括:掘机的动臂、斗杆和铲斗与挖掘物的相对位置e’,各长度传感器分别获取动臂、斗杆和铲斗的油缸长度数据l,各倾角传感器分别获取动臂、斗杆和铲斗的相对倾角数据φ,各压力传感器分别获取动臂油缸、斗杆油缸和铲斗油缸的压力数据p,动臂、斗杆和铲斗油缸的伸缩加速度数据a,动臂、斗杆和铲斗关节的角加速度数据a’,动臂、斗杆和铲斗油缸的电液控制阀控制信号u。 5.根据权利要求4所述的基于强化学习的半自主挖掘方法,其特征是,动臂、斗杆和铲斗油缸的伸缩加速度数据a通过各油缸长度数据二次差分计算而得。 6.根据权利要求4所述的基于强化学习的半自主挖掘方法,其特征是,以动臂关节点为坐标原点O,根据动臂与挖掘物距离e、角度信息φ、激光雷达与原点的距离、动臂与斗杆的长度计算出动臂、斗杆和铲斗与挖掘物的相对位置e’。 7.根据权利要求3所述的基于强化学习的半自主挖掘方法,其特征是,步骤2中,为每种决策行为初始化Q(st,ai)值为全0的矩阵。 8.根据权利要求3所述的基于强化学习的半自主挖掘方法,其特征是,奖赏值设置的过程为: 在挖掘过程中,单步时间内,根据挖掘机状态采取决策行为后,奖赏值为r1=-1,训练目标是使挖掘机以最短时间完成一次挖掘; 在完成一次挖掘后,根据铲斗中挖掘物料质量产生奖赏值r2; 若执行决策行为后发生碰撞,则给与奖赏值r3=-100,同时终止本次训练,自动将挖掘机复位到挖掘起始位置。 9.根据权利要求3所述的基于强化学习的半自主挖掘方法,其特征是,更新的Q’(st,a1)值为:Q’(st,a1)=(1-α)*Q(st,a1)+α[r+γ*maxQ(st+1,ai)],其中α为学习率,γ为折扣系数,Q(st+1,ai)为BP神经网络的输出Q值矩阵在状态st+1下、决策行为ai时的矩阵元素。 10.根据权利要求3所述的基于强化学习的半自主挖掘方法,其特征是,步骤4中,通过铲斗内物料质量判断挖掘动作是否完成。 |