论文题名: | 面向自动驾驶领域开放数据集可用性测试研究 |
关键词: | 汽车自动驾驶系统;开放数据集;可用性;噪声检测;隐私检测 |
摘要: | 随着自动驾驶技术的发展,更多的研究关注自动驾驶的可用性质量问题。目前已在Udacity数据集中发现了标签遗漏的严重质量问题,这将会导致自动驾驶车辆做出错误的决策。基于此,本文对自动驾驶开放数据集的可用性开展研究。为了提高检测一致性的精度,本文对一致性检测框架置信学习的输入进行了改进,研究了标签质量和均衡性在噪声检测模型中的影响,在隐私检测中通过对比实验选择ALPR方法检测涉及车牌与隐私管理的覆盖率,通过实验对自动驾驶开源数据集的可用性进行检测评估。本文的主要工作包括以下几个方面: 1)针对自动驾驶领域大规模数据集中存在的不一致问题,改进置信学习算法,采用StratifiedKFold分层抽样实现数据集划分,保证数据集连续性,获得了精度更高的噪声标签和真实标签的联合分布,根据联合分布定位不一致样本。改进后的算法在BDD100K等训练集中提升了5.5%以上的精度。 2)验证完备性、一致性和均衡性对噪声数据学习模型O2U-Net和MentorNet准确性的影响。在Resnet101和9-Layer CNN网络上与原始数据集对比,通过添加不同噪声率获得标签遗漏、标签重复和标签不一致三类标签质量问题数据集。实验结果表明,标签不一致对模型的准确性影响最大。通过改变“car”和“train”的数量获得三类不平衡数据集,实验结果表明增加特征后的不平衡数据集在模型中的精确度最高,说明在自动驾驶领域的研究应该集中在特征分布常见且丰富的类别上。 3)由于车牌含有用户个人信息,本文通过对比基于YOLOv3模型直接定位车牌、基于ALPR方法和MTCNN方法定位车牌,以此评估隐私性。实验结果表明基于ALPR方法能够检测出更多的未遮挡车牌。 4)针对自动驾驶数据集的特征标签多和场景丰富的特点,为了保障可用性测试的全面性,总结归纳出了自动驾驶领域开放数据集的可用性测试模型。该模型以ISO/IEC25024数据质量模型和各领域常用的数据可用性指标为依据,给出了数据集标签质量、分布、隐私情况和规模等评估维度,同时定义了一致性、完备性和均衡性等七个二级指标并推荐了具体度量方法。 基于上述研究开发了可用性测试平台,实现了对BDD100K、Cityscapes、KITTI和Udacity数据集的可用性检测,对于自动驾驶领域开放数据集的可用性检测具有意义。 |
作者: | 李思佳 |
专业: | 软件工程 |
导师: | 范勇 |
授予学位: | 硕士 |
授予学位单位: | 西南科技大学 |
学位年度: | 2022 |