专利名称: |
一种自动驾驶决策方法及系统 |
摘要: |
本发明公开了一种自动驾驶决策方法及系统。本发明自动驾驶决策方法包括步骤获取车辆信息以及道路信息、搭建强化学习框架下的驾驶环境、对驾驶环境进行增广、搭建Actor‑Critic算法网络进行训练测试、使用Actor‑Critic算法网络获取决策意图并由底层决策控制模块执行。本发明拥有自主学习能力,同时安全性优秀。 |
专利类型: |
发明专利 |
申请人: |
华南理工大学;广州华工机动车检测技术有限公司 |
发明人: |
谢翀;刘科明;李巍华;刘天灵;吴奕琦 |
专利状态: |
有效 |
申请日期: |
2023-08-07T00:00:00+0800 |
发布日期: |
2023-11-10T00:00:00+0800 |
申请号: |
CN202310990962.5 |
公开号: |
CN117022321A |
代理机构: |
广州市华学知识产权代理有限公司 |
代理人: |
郑秋松 |
分类号: |
B60W60/00;B60W50/00;G06N3/045;G06N3/092;B;G;B60;G06;B60W;G06N;B60W60;B60W50;G06N3;B60W60/00;B60W50/00;G06N3/045;G06N3/092 |
申请人地址: |
510640 广东省广州市天河区五山路381号; |
主权项: |
1.一种自动驾驶决策方法,其特征在于,包括步骤如下: 获取车辆侧信息、道路侧信息; 根据所获取到的车辆侧信息、道路侧信息,构建驾驶环境; 对构建的驾驶环境进行增广; 采用深度强化学习的Actor-Critic算法网络,根据增广后的驾驶环境中的信息,对Actor-Critic算法网络进行训练测试; 将新获取的车辆侧信息、道路侧信息经过驾驶环境增广后,输入经过训练测试的Actor-Critic算法网络进行决策,得到车辆所有可能动作的概率分布,然后从中确定车辆需要做出的动作。 2.根据权利要求1所述的自动驾驶决策方法,其特征在于,所述获取车辆侧信息、道路侧信息的同时进行坐标转换,将车辆侧信息、道路侧信息从世界坐标系变换到车辆自身坐标系; 所述车辆侧信息包括了车辆自身以及道路上其他车辆的部件结构参数、运动参数数据; 所述道路侧信息包括了道路上的各类标志、空间尺寸、地图的数据。 3.根据权利要求2所述的自动驾驶决策方法,其特征在于,所述驾驶环境包括观测空间、动作空间、奖励函数; 所述观测空间为由车辆自身和周围车辆的运动参数组成的数组; 所述动作空间为由车辆的多个动作序列组成的集合; 所述奖励函数为将车辆自身在最短时间内抵达目的地作为目标的函数。 4.根据权利要求3所述的自动驾驶决策方法,其特征在于,所述对驾驶环境进行增广,过程包括分别对观测空间、动作空间、奖励函数进行增广。 5.根据权利要求4所述的自动驾驶决策方法,其特征在于,对观测空间进行增广,过程包括: 将动作序列从输出单个时刻的动作的方式,改变为输出增加为设定的时段内的动作序列,由多个增广后的动作序列组成增广的动作空间。 6.根据权利要求5所述的自动驾驶决策方法,其特征在于,对观测空间进行增广,过程包括:将当前时段的观测空间与上一时段的动作序列合并为新的观测空间。 7.根据权利要求6所述的自动驾驶决策方法,其特征在于,对奖励函数进行增广,过程包括:将原有的奖励函数加上决策一致性奖励; 所述决策一致性奖励为,当某一时段内动作序列中,与其上一时段内动作序列中,做出相同动作的次数。 8.根据权利要求4所述的自动驾驶决策方法,其特征在于,所述Actor-Critic算法网络的结构,包括策略网络、价值网络; 所述策略网络包括依次连接的输入层、中间层、输出层; 策略网络的输入为增广后的观测空间,输出为所有可能动作的概率分布; 所述价值网络的输入与策略网络相同;价值网络通过特征提取,输出当前观测空间下的价值并反馈给策略网络用于网络参数更新。 9.根据权利要求8所述的自动驾驶决策方法,其特征在于,从所有可能动作的概率分布中确定车辆需要做出的动作,过程包括: 从所有可能的横向的动作序列、纵向的动作序列的概率分布中,将概率最大的动作序列作为相应的横向决策意图、纵向决策意图; 根据纵向决策意图采用比例控制的方式计算得到油门开度,根据纵向决策意图计算刹车控制量,从而确定车辆在纵向上的动作决策; 根据横向决策意图采用比例积分控制的方式计算得到车轮转角的角度,从而确定车辆在横向上的动作决策。 10.一种自动驾驶决策系统,其特征在于,包括依次连接的信息获取模块、驾驶环境模块、增广模块、Actor-Critic算法网络模块、底层决策控制模块; 所述信息获取模块用于获取车辆侧信息、道路侧信息; 所述驾驶环境模块用于根据所获取到的车辆侧信息、道路侧信息构建驾驶环境; 所述增广模块用于对构建的驾驶环境进行增广; 所述Actor-Critic算法网络模块为基于深度强化学习的Actor-Critic算法网络,用于根据增广后的驾驶环境中的信息,得到车辆所有可能动作的概率分布; 所述底层决策控制模块用于从车辆所有可能动作的概率分布中确定车辆需要做出的动作。 |