专利名称: |
基于深度学习与多维注意力的高分辨率遥感道路提取方法 |
摘要: |
本发明公开了一种基于深度学习与多维注意力机制结合的高分辨率遥感图像道路提取方法。该方法包括采用全卷积神经网络UNet对遥感图像道路信息进行提取;将多维注意力模块与UNet网络的编码部分进行结合,使传递给解码部分的道路特征图具有更强的特征表达能力;采用多层级特征融合的方式,在解码阶段的每一层获取到不同层级的特征信息,使传递的特征图具有纹理信息与语义信息,以优化特征图的表达能力;用户通过访问node.js基于服务器的Web前端,可以实时观测卫星传回的高分辨率遥感图像的提取结果。通过上述方案,本发明提取到了高准确率的遥感图像道路信息,多维注意力模块和多层级特征融合方法的引入使进行卷积训练的图像具有更强的表达能力,与一般的深度学习方法相比提升了遥感图像道路提取的精确度。与此同时,深度学习网络的自我反馈机制使提取过程更加智能化与自动化,能够对不同地区的不同道路规模的图像进行适应性调整,以获取最优道路图像信息,因此具有很高的实用价值和推广价值。 |
专利类型: |
发明专利 |
国家地区组织代码: |
四川;51 |
申请人: |
张男 |
发明人: |
张男;黄鑫;杨艾青 |
专利状态: |
有效 |
申请日期: |
2021-12-21T00:00:00+0800 |
发布日期: |
2022-03-11T00:00:00+0800 |
申请号: |
CN202111571146.8 |
公开号: |
CN114170519A |
分类号: |
G06V20/10;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08;G;G06;G06V;G06N;G06V20;G06V10;G06N3;G06V20/10;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
申请人地址: |
610059 四川省成都市成华区二仙桥东三路1号成都理工大学 |
主权项: |
1.一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于,包括如下步骤: (S1)构建数据集:科学选取一定数量的带有标签的高分辨率遥感图像,分为训练数据集,验证数据集和测试数据集;使用数据增强方法预先处理数据集,避免训练过程中过拟合的发生; (S2)构建多维注意力机制模块:模块会将输入的特征图像分别在高度(H)、宽度(W)和通道(C)三个维度上进行全局平均池化,然后将三个维度的结果分别通过全连接层并用激活函数激活,得到的结果为每个高度、宽度、通道的重要性权重值,将权重值与输入的特征图像相乘,最后将三个维度得到的结果进行逐像素相加; (S3)构建UNet网络与多维注意力机制结合的深度学习模型:UNet的编码部分包括四层,每一层的输出连接一个(S2)得到的多维注意力机制模块,并采用多层级特征融合的方式让多维注意力机制模块的输出传递到UNet的解码部分; (S4)选取损失函数:选取结合焦点损失函数Focal loss、结构相似指数损失函数SSIMloss和交并比损失函数IoU loss的混合损失函数,此损失函数能够获取不同尺度目标的清晰边界; (S5)对模型进行迭代训练:利用训练数据集对(S3)得到的模型进行迭代训练,将输出结果通过Sigmoid函数激活得到道路图像提取结果,并选用随机梯度下降方法作为优化器,以获取最优损失函数结果,随后选取损失函数结果最优的模型在验证数据集上进行训练,进一步调整模型的超参数,最后在测试数据集上训练模型,以评估模型提取道路特征信息的精确度; (S6)搭建Web应用界面:将训练好的模型加入基于node.js的服务器系统,服务器可以实时接收卫星遥感图像或用户自定义上传的遥感图像,并将道路提取结果实时传递给基于node.js服务器搭建的用户交互界面的Web前端服务。 2.根据权利要求1所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:所述步骤(S1)选取了DeepGlobe的高精度遥感图像,其中训练数据集包括6626张高精度遥感图像和6626张标签,训练集包括1243张图像,测试集包括1101张图像,图片大小均为1024x1024,而数据增强方法为:预先对训练集和验证集图像进行水平、竖直、对角线三种方式翻折,然后对图像进行缩放比例最高为15%的随机缩放,其次将图像进行偏移距离最多15%的随机偏移,之后将图像沿水平或竖直方向拉伸最多15%,最后将图像截取中心的1024x1024部分。 3.根据权利要求1所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:所述步骤(2)将输入图像分别在高度(H)、宽度(W)和通道(C)三个维度上进行全局平均池化的公式分别为: 其中,以第三个公式为例,uc代表输入图像数据,c 代表输入图像数据的第c个通道。 4.根据权利要求3所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:全局平均池化后进行的全连接层操作以及激活具体公式如下: 其中, W1z是进行第一次全连接操作,与 W2相乘是进行第二次全连接操作。 5.根据权利要求4所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:权利要求4中公式表示的s 代表了各个维度中注意的高度、宽度、通道的重要性权重值,将该权重值与初始的输入数据相乘,其具体公式如下: 最后,将三个维度得到的结果逐像素相加,即可得到多维度注意力机制模块的输出结果, 其具体公式如下: 其中,将⊕定义为逐像素相加运算,因为多维度注意力机制模块被添加在UNet网络的每层编码结果之后,因此i表示第i编码层。 6.根据权利要求5所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:编码层经过多维注意力机制模块输出的结果传递到解码层所采用的多层级特征融合方法具体公式如下: 其中,C(.)表示卷积操作,μ表示上采样过程,[.]表示通道维度拼接融合,H(.)表示特征融合操作(包括卷积操作、批标准化和ReLU激活函数)。 7.根据权利要求6所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:评价构建的深度学习网络与多维注意力机制结合的训练模型的输出结果所采用的的损失函数具体公式如下: 其中,Lfocal表示焦点损失函数,Liou表示交并比损失函数,Lssim表示结构相似指数损失函数,Lseg表示本发明选取的三个损失函数的混合损失函数,g表示遥感图像的地面真值,即数据集中的标签部分,p 表示预测值,即深度学习模型的输出,μp、μg表示p、g的均值,σp、σg表示p、g的方差,σpg表示p和g的协方差,γ、α、β、C1、C2均为超参数:γ起到平滑的作用,设置范围为(0, 5);α、β定义两个相乘部分的相对重要性;C1、C2避免出现结果为0的情况。 8. 根据权利要求1所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:所述步骤(S6)中实现Web前端与服务器进行交互的具体过程为Web 前端使用javascript 向node.js 服务器发出HTTP 请求,服务器根据请求类型判断调用实时卫星遥感图像或是接收前端发出的自定义图像,然后将目标图像进行道路信息提取后,将结果发送给Web前端用户。 9.根据权利要求8所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法,其特征在于:所述步骤(S6)中Web前端包括登录页面、Index页面、状态页面、功能选择页面、图片上传页面、结果显示页面、历史记录页面、数据更新页面、用户配置页面,其中Index页面用于访问应用程序不同部分的导航页,同时包含指向网站所有其他页面的链接。 |
所属类别: |
发明专利 |