详情

原文传递面向自动驾驶的视觉数据生成关键问题研究

论文题名：	面向自动驾驶的视觉数据生成关键问题研究
关键词：	自动驾驶;视觉数据生成;三维场景重建;点云滤除;稀疏深度补全;图像合成
摘要：	数据驱动的机器学习算法在自动驾驶汽车感知、决策、规划等相关研究中广泛应用。然而，这样机器学习算法模型很大程度上依赖于大量带标注的训练数据，而大规模人工标注是一个复杂且成本高昂的工作。因此，基于仿真引擎模拟或实际数据增强的自动驾驶数据生成技术逐渐成为当下研究的热点。数据生成技术一方面可以自动生成带标注的数据用于算法的训练，另一方面可应用于测试和验证算法在不同驾驶场景中的能力。其中，为满足算法对自动驾驶环境数据的需求，以场景图像、点云为代表的视觉数据生成是重要的研究课题。　　论文围绕自动驾驶场景中的视觉数据生成问题，在深度学习的框架下，研究基于采集数据的新数据生成方法，对三维场景重建、动态目标点云滤除、稀疏深度补全、新视角图像合成等关键问题进行了探索。由于自动驾驶汽车通常使用激光雷达和单目相机作为组合传感器采集环境数据，论文的研究基于采集得到的场景图像和点云数据开展。以构建统一的静态点云地图为目标，论文首先研究了三维场景重建的问题，分别提出了基于图像和点云融合的深度直接法位姿估计和三维重建方法，以及基于图像序列的端到端的环境车辆速度估计和动态车辆点云滤除方法。在静态重建结果的基础上，论文分别研究了致密深度生成和新视角图像生成问题：以提高激光雷达测量分辨率为目标，提出了基于特征度量一致性的自监督稀疏深度补全方法；以实现在点云地图中自由视角图像合成为目标，提出了直接从稀疏的彩色三维点云中合成新视角图像的方法。论文具体开展的工作和取得的成果如下：　　（1）针对在弱纹理区域和光照变化等场景下视觉里程计鲁棒性不强的问题，提出了特征度量一致性假设，并基于该假设设计了图像和点云融合的深度直接法位姿估计算法。该算法首先利用深度神经网络提取图像的多层特征金字塔。接着，从特征金字塔高层向低层，利用高斯-牛顿法逐步优化位姿变量，从而得到两帧之间的相对位姿。在此方法的基础上，采用滑动窗口法平滑特征累计误差，构建了深度直接法视觉里程计框架。与现有方法相比，深度直接法作为视觉里程计前端更鲁棒，位姿推理具有局部稳定平滑且抗漂移的优势。　　（2）针对自动驾驶场景中动态目标车辆造成的三维重建点云不一致问题，研究目标车辆相对本车的距离和速度估计方法，提出了基于单目视频的端到端车速估计和动态车辆标记算法。该算法挖掘车辆检测网络中的几何线索、深度网络中的特征线索，以及光流网络中的跨时间线索，推导了一个基于时空线索的端到端相对车距和车速回归模型。另外，为了克服透视投影和车辆运动带来的光流不准确问题，还提出了以车辆为中心的图像采样策略，以提高光流估计的精度。在速度估计的基础上，提出了环境中动态和静态车辆标记方法，以去除三维点云重建中的动态点。在自动驾驶数据集上进行了广泛的定性和定量实验，验证了该方法的高效性和准确性。　　（3）针对激光雷达采集的深度数据的稀疏性问题，提出了基于特征度量一致性假设的自监督稀疏深度补全框架。该框架基于以上两条研究成果，一方面利用相对位姿提高帧间匹配点的准确性以提升自监督框架的输入精度，另一方面基于特征金字塔建立特征度量一致性损失函数以训练深度补全网络。在自监督框架下进行大规模训练后，深度补全网络可以从输入的图像和稀疏深度图中直接推理得到致密的深度图。实验表明生成的稠密深度有效恢复了场景细节、目标边缘等信息。　　（4）针对三维场景彩色点云中新视角图像生成的问题，提出了“点云-图像”直接映射的视图合成新范式。传统生成方法先投影3D点云到视角成像平面，然后进行特征编解码，这样会得到与视角相关的点云特征，造成3D信息损失。为弥补以上不足，提出了“先对空间3D点云进行直接特征编码，再投影到图像平面进行特征解码”的改进流程。为了让生成的图像细节更加丰富、场景更加精细，还提出了一个图像细化网络，用于对生成的图像进行进一步微调。最终，面向室内、室外不同环境，输入扫描、重建等不同途径获取的点云，该算法均可以恢复场景级别的逼真的致密图像。
作者：	宋振波
专业：	控制科学与工程
导师：	陆建峰
授予学位：	博士
授予学位单位：	南京理工大学
学位年度：	2022