详情

原文传递使用深度强化学习的自动导航

专利名称：	使用深度强化学习的自动导航
摘要：	本公开提供了“使用深度强化学习的自动导航”。公开了一种用于训练自主车辆到达目标位置的方法。所述方法包括检测模拟环境中的自主车辆的状态，以及使用神经网络将所述车辆从初始位置导航到目标目的地。在所述训练阶段期间，对于所述自主车辆采取的期望动作，第二神经网络可以对第一神经网络进行奖励，并且对于所述自主车辆采取的不期望的动作，可以对所述第一神经网络进行惩罚。本文还公开并要求保护对应的系统和计算机程序产品。
专利类型：	发明专利
国家地区组织代码：	美国;US
申请人：	福特全球技术公司
发明人：	考希克·巴拉科瑞斯南;普拉韦恩·纳拉亚南;莫森·莱克哈尔-阿亚特
专利状态：	有效
申请日期：	2019-04-02T00:00:00+0800
发布日期：	2019-10-18T00:00:00+0800
申请号：	CN201910262817.9
公开号：	CN110341700A
代理机构：	北京连和连知识产权代理有限公司
代理人：	回旋
分类号：	B60W30/06(2006.01);B;B60;B60W;B60W30
申请人地址：	美国密歇根州迪尔伯恩市
主权项：	1.一种方法，其包括：通过至少一个传感器检测模拟环境中的自主车辆的状态；通过第一神经网络将所述自主车辆从初始位置导航到目标目的地；对于在训练阶段期间由所述自主车辆采取的有益动作，通过第二神经网络对所述第一神经网络进行奖励；以及对于采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。 2.如权利要求1所述的方法，其中所述第一神经网络和所述第二神经网络中的每一个在所述训练阶段期间在所述自主车辆上。 3.如权利要求1所述的方法，其中所述至少一个传感器选自由相机传感器、激光雷达传感器、雷达传感器、GPS传感器和超声传感器组成的组。 4.如权利要求1所述的方法，其中所述状态包括所述自主车辆的位置和方位中的至少一个。 5.如权利要求1所述的方法，其还包括：在重放缓冲区中存储以下至少一者：所述自主车辆的状态、在所述对应状态下采取的动作，以及对应于所述动作的奖励和惩罚中的至少一个。 6.如权利要求5所述的方法，其还包括对所述重放缓冲区进行采样以训练所述第一神经网络。 7.如权利要求1所述的方法，其中导航包括：将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。 8.一种用于训练自主车辆到达目标位置的系统，其包括：自主车辆，所述自主车辆包括至少一个传感器；至少一个处理器；和至少一个存储器装置，所述至少一个存储器装置可操作地联接到所述至少一个处理器并存储用于在所述至少一个处理器上执行的指令，所述指令使所述至少一个处理器：利用所述至少一个传感器检测模拟环境中的所述自主车辆的状态；通过第一神经网络将所述自主车辆从初始位置导航到目标目的地；对于在训练阶段期间由所述自主车辆采取的有益动作，经由第二神经网络对所述第一神经网络进行奖励；以及对于在所述训练阶段期间由所述自主车辆采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。 9.如权利要求8所述的系统，其中所述第一神经网络和所述第二神经网络中的每一个在所述训练阶段期间在所述自主车辆上。 10.如权利要求8所述的系统，其中所述至少一个传感器选自由相机传感器、激光雷达传感器、雷达传感器、GPS传感器和超声传感器组成的组。 11.如权利要求8所述的系统，其中所述状态包括所述自主车辆的位置和方位中的至少一个。 12.如权利要求8所述的系统，其中所述指令还使所述处理器在重放缓冲区中存储以下至少一者：所述自主车辆的状态、在所述对应状态下采取的动作，以及对应于所述动作的奖励和惩罚中的一个。 13.如权利要求8所述的系统，其中所述指令还使所述处理器将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。 14.一种计算机程序产品，其包括计算机可读存储介质，所述计算机可读存储介质具有包含在其中的计算机可用程序代码，所述计算机可用程序代码被配置成当由至少一个处理器执行时执行以下操作：利用至少一个传感器检测模拟环境中的自主车辆的状态；通过第一神经网络将所述自主车辆从初始位置导航到目标目的地；对于在训练阶段期间由所述自主车辆采取的有益动作，经由第二神经网络对所述第一神经网络进行奖励；以及对于在所述训练阶段期间由所述自主车辆采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。 15.如权利要求14所述的计算机程序产品，其中所述计算机可用程序代码还被配置成将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。
所属类别：	发明专利