专利名称: |
一种基于深度强化学习的垃圾分拣装置与方法 |
摘要: |
本发明公开了一种基于深度强化学习的垃圾分拣装置和方法,装置包括工作台、设置在工作台上的机械臂、AI计算单元和摄像头,工作台设有用于放置待分拣垃圾的待分拣区域;摄像头定时获取图像数据,并将图像数据发送至所述AI计算单元,图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;AI计算单元根据摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;机械臂根据AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。本发明采用采用深度强化学习模型得到机械臂的最优行动,不依赖于垃圾的定位识别,分类速度快,且分类准确率高。 |
专利类型: |
发明专利 |
申请人: |
中电海康集团有限公司 |
发明人: |
胡青阳;叶晶晶;高思斌;王瑞琰 |
专利状态: |
有效 |
申请日期: |
1900-01-20T00:00:00+0805 |
发布日期: |
1900-01-20T07:00:00+0805 |
申请号: |
CN201911383566.6 |
公开号: |
CN110963209A |
代理机构: |
杭州君度专利代理事务所(特殊普通合伙) |
代理人: |
杨天娇 |
分类号: |
B65F1/14;B65F1/00;G06K17/00;G06N3/04;G06N3/08;B;G;B65;G06;B65F;G06K;G06N;B65F1;G06K17;G06N3;B65F1/14;B65F1/00;G06K17/00;G06N3/04;G06N3/08 |
申请人地址: |
311121 浙江省杭州市余杭区文一西路1500号1幢311室 |
主权项: |
1.一种基于深度强化学习的垃圾分拣装置,其特征在于,所述的基于深度强化学习的垃圾分拣装置包括工作台,以及设置在所述工作台上的机械臂、AI计算单元和摄像头,其中: 所述工作台上设有用于放置待分拣垃圾的待分拣区域; 所述摄像头用于定时获取图像数据,并将所述图像数据发送至所述AI计算单元,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态; 所述AI计算单元用于根据所述摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂; 所述机械臂用于根据所述AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。 2.如权利要求1所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体; 所述深度强化学习模型的状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态; 所述深度强化学习模型的动作空间为机械臂的控制指令的集合; 所述深度强化学习模型的奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励; 所述深度强化学习模型的策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射。 3.如权利要求2所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型中的值函数的构建过程,包括以下步骤: 令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数R:即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为: 其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子。 4.如权利要求3所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述值函数的网络参数为θi时的损失函数公式定义为: Li(θi)=Es,a,r,s′[(y-Q(s,a;θi))2]+Es,a,r[Vs′[y]] 其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Li(θi)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。 5.如权利要求3所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型的训练过程包括: 1)初始化经验回收区D,设置经验回收区D的容量为N; 2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络,所述Q值现实网络即为所述值函数,取权值θ′=θ; 3)初始化episode=1; 4)初始化初始状态为s1; 5)初始化t=1; 6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ); 7)执行动作at,获得奖励rt和新的状态st+1; 8)将(st,at,rt,st+1)存入经验回收区D中; 9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络; 10)更新Q值现实网络,取权值θ′=θ; 11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12); 12)若episode≤M,则重新执行步骤4),若episode>M,则结束。 6.如权利要求2所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述基于深度强化学习的垃圾分拣装置首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练; 在所述无人监督的真实环境训练,对用于训练的垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。 7.一种基于深度强化学习的垃圾分拣方法,其特征在于,所述的基于深度强化学习的垃圾分拣方法,包括以下步骤: 定时获取图像数据,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态; 根据所获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂; 所述机械臂用于根据接收的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。 8.如权利要求7所述的基于深度强化学习的垃圾分拣方法,其特征在于,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体,状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态,动作空间为机械臂的控制指令的集合,奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励,策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射; 所述深度强化学习模型中的值函数的构建过程,包括以下步骤: 令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数R:即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为: 其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子; 所述值函数的网络参数为θi时的损失函数公式定义为: Li(θi)=Es,a,r,s′[(y-Q(s,a;θi))2]+Es,a,r[Vs′[y]] 其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Li(θi)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。 9.如权利要求8所述的基于深度强化学习的垃圾分拣方法,其特征在于,所述深度强化学习模型的训练过程包括: 1)初始化经验回收区D,设置经验回收区D的容量为N; 2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络,所述Q值现实网络即为所述值函数,取权值θ′=θ; 3)初始化episode=1; 4)初始化初始状态为s1; 5)初始化t=1; 6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ); 7)执行动作at,获得奖励rt和新的状态st+1; 8)将(st,at,rt,st+1)存入经验回收区D中; 9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络; 10)更新Q值现实网络,取权值θ′=θ; 11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12); 12)若episode≤M,则重新执行步骤4),若episode>M,则结束。 10.如权利要求8所述的基于深度强化学习的垃圾分拣方法,其特征在于,所述深度强化学习模型首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练; 在所述无人监督的真实环境训练,对用于训练的垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。 |
所属类别: |
发明专利 |