论文题名: | 面向无人驾驶视觉定位的动静场景转换 |
关键词: | 无人驾驶;视觉定位;特征匹配;场景转换 |
摘要: | 从城镇环境中获取的图像或视频通常都包含动态及静态区域,动态区域包括行人、车辆等运动对象,静态区域包括建筑物、道路等固定设施。动静场景转换旨在将动态图像或视频转换为静态,即消除场景中的动态内容并恢复相应静态背景,这将显著增强动态环境下的路标特征匹配,对无人驾驶视觉定位与导航具有重要作用。随着深度生成技术的发展,现有方法通常采用条件生成对抗网络直接学习动态域到静态域的映射。然而,简单地将场景转换视为图像翻译,缺乏对时空特征的高效利用容易导致合成静态内容出现模糊伪影。于是,本文对于动静场景转换进行深入研究,发展一系列改进模型并在丰富的视觉定位实验中验证其有效性。本文的主要贡献总结如下: (1)针对合成静态图像原始细节丢失以及重建静态内容质量低的问题,提出由粗到细动静场景转换模型。该模型通过粗粒度网络、阴影检测模块及细粒度网络,将动静场景转换问题转化为图像修复类问题。该模型还引入新颖的纹理-结构注意力机制,充分利用图像空间信息。通过无人驾驶模拟器构造数据集,开展图像质量评估与视觉位置识别评估。实验表明,所提模型性能指标大幅超越现有先进模型。此外,本文还将模型迁移到真实世界场景,进一步验证了模型的泛化性能。 (2)为增强对动态场景中语义及图像信息的利用,提取鲁棒性高的视觉定位特征,提出多模态动静场景转换模型。该模型通过动静语义分割网络、语义先验概率模型及静态图像生成网络,从动态图像中推理静态图像及静态语义分割。本文首次在动静场景转换中引入动静语义分割,并基于此发展了一种“图像+语义”的多模态编码及图像检索技术。利用无人驾驶模拟器构造数据集,开展语义分割、图像质量及视觉位置识别评估,验证了所提模型的鲁棒性与实用性。 (3)为充分挖掘视频序列时空特征,生成时空一致静态视频,提出视频序列动静场景转换模型。该模型参考由粗到细的两阶段设计,将动静视频转换视为视频修复问题。该模型根据粗粒度网络及光流加权掩码生成粗糙静态图像及完整的动态区域掩码,通过嵌入时间移位模块及特征对齐增强的细粒度优化网络高效提取视频时空信息。基于无人驾驶模拟数据集,开展视频质量评估、视觉里程计实验,证明了所提模型的在保持合成视频时空一致性及其在视觉定位方面的优势。 |
作者: | 吴麟 |
专业: | 控制工程 |
导师: | 孙长银 |
授予学位: | 硕士 |
授予学位单位: | 东南大学 |
学位年度: | 2022 |