主权项: |
1.一种基于强化学习的视触融合精细操作方法,其特征在于,该方法包含以下步骤: S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量; S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量; S3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息; S4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。 2.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于, 所述步骤S2中,进一步包含: 所述卷积神经网络是以原始图像数据作为输入,采用AlexNet网络模型中的结构参数,所述卷积神经网络包含卷积层、池化层和全连接层; 所述卷积层通过卷积核对输入层进行特征提取,所述卷积核对卷积神经网络的输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征,其中,卷积核对输入层每完成一遍扫描,完成一次卷积操作,得到一张特征图谱,多个卷积核分别将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱,最终得到视觉图像的特征表示。 3.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于, 所述步骤S2中,进一步包含: 所述触觉序列的分段是指在得到触觉序列化的动态数据的基础上,对其进行整体建模,在时间维度将触觉序列进行切分建模,将触觉序列划分为一系列子触觉序列。 4.如权利要求3所述的基于强化学习的视触融合精细操作方法,其特征在于, 所述触觉序列的特征提取进一步包含: 基于线性动态系统的方法对每组子触觉序列进行特征提取,线性动态系统的表达式如下: x(t+1)=Ax(t)+Bv(t) y(t)=Cx(t)+w(t) 其中,x(t)∈Rp为t时刻的隐状态序列;y(t)为t时刻的系统实际输出值;A∈Rn×n为隐状态动态矩阵,C∈Rp×n为系统的隐状态输出矩阵,w(t)~N(0,R),Bv(t)~N(0,Q)分别表示估计值和状态噪声;观测矩阵元组(A,C)分别刻画系统的动态性和空间形态,将其作为输入触觉序列的特征描述子,在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离。 5.如权利要求4所述的基于强化学习的视触融合精细操作方法,其特征在于, 所述触觉序列的聚类处理进一步包含: 在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离后,使用K-Medoid算法进行聚类,计算出特征描述子与各自聚类中心之间的最小距离,在此基础上进行分组,将多个聚类中心和分组构建为码书,每组特征描述子(A,C)被称为码词; 使用码书对触觉序列表征得到系统包模型,由特征词频率算法统计码词在码书中的分布特点,并形成特征向量; 当在第i组触觉序列,第j组码词出现的次数为cij次,则有: 其中,m为触觉序列个数;k为聚类中心点个数;hij表示在第i组触觉序列,第j组码词出现的频率,即提取的一组触觉特征向量。 6.如权利要求5所述的基于强化学习的视触融合精细操作方法,其特征在于, 所述步骤S3中进一步包含: 深度稀疏编码方法挖掘不同模态的潜在子空间描述形式,并建立联合核稀疏编码来对多模态信息进行联合建模,融合不同模态信息的相容部分,并剔除不相容部分; 核稀疏编码通过建立一个高维特征空间,取代原来的空间,以便从字典中捕捉信号的非线性结构,具体如下: 当编码之前有M个模态信息,Nm是训练样本的个数,Mm代表第m个模态数据特征描述,m=1,2,…M; 用映射函数将训练样本映射到一个更高维空间,将φm(·):Mm→Hm作为从Mm映射到高维积空间Hm的隐式非线性映射,则φm(Om)称为高维空间的字典,且将联合核稀疏编码放松为组联合核稀疏编码,要求对应同一个组内的元素被同时激活。 7.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于, 所述步骤S4中的DDPG算法包含策略网络和价值网络,所述策略网络包括策略估计网络和策略现实网络,所述策略估计网络用于输出实时的动作,供所述策略现实网络使用,所述策略现实网络用于更新价值网络; 所述价值网络包括价值估计网络和价值现实网络,均是用于输出当前状态的价值,所述价值估计网络的输入是当前策略施加动作; 所述策略估计网络和所述价值估计网络用于产生训练数据集,所述策略现实网络和所述价值现实网络用于训练优化网络参数。 |