【深度学习遥感分割|论文解读1】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割

文章目录

【深度学习遥感分割|论文解读1】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割
前言
1. Introduction

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：
可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

论文地址：https://www.sciencedirect.com/science/article/abs/pii/S0924271622001654

前言

遥感城市场景图像的语义分割在土地覆盖制图、城市变化检测、环境保护和经济评估等众多实际应用中至关重要。随着深度学习技术的快速发展，卷积神经网络（CNN）在语义分割领域占据了主导地位。CNN采用层级特征表示，展现了强大的信息提取能力。

然而，卷积层的局部特性限制了网络捕捉全局上下文的能力。近年来，Transformer作为计算机视觉领域的热门话题，展现了在全局信息建模方面的巨大潜力，推动了图像分类、目标检测和特别是语义分割等视觉相关任务的发展。

本文提出了一种基于Transformer的解码器，并构建了类UNet的Transformer（UNetFormer）用于实时城市场景分割。为实现高效分割，UNetFormer选择轻量级的ResNet18作为编码器，并在解码器中开发了一种高效的全局-局部注意力机制，以建模全局和局部信息。大量实验表明，我们的方法在运行速度和精度上均优于当前最先进的轻量级模型。具体而言，所提出的UNetFormer在UAVid和LoveDA数据集上分别达到了67.8%和52.4%的mIoU，同时在单个NVIDIA GTX 3090 GPU上，512×512输入的推理速度可达到322.4 FPS。在进一步探索中，提出的基于Transformer的解码器结合Swin Transformer编码器在Vaihingen数据集上也取得了最先进的结果（91.3% F1和84.1% mIoU）。

源代码将在https://github.com/WangLibo1995/GeoSeg上免费提供。

1. Introduction

受传感器技术进步驱动，高分辨率遥感城市场景图像在全球范围内越来越多地被捕获，展现出丰富的空间细节和潜在的语义内容。城市场景图像广泛应用于语义分割，即像素级分割和分类，推动了土地覆盖制图（Li et al., 2022b；Maggiori et al., 2016；Marcos et al., 2018）、变化检测（Xing et al., 2018；Yin et al., 2018）、环境保护（Samie et al., 2020）、道路和建筑提取（Griffiths and Boehm, 2019；Shamsolmoali et al., 2020；Vakalopoulou et al., 2015）等多个城市相关应用（Picoli et al., 2018；Shen et al., 2019）。

近年来，深度学习技术（LeCun et al., 2015），尤其是卷积神经网络（CNN），主导了语义分割任务（Chen et al., 2014；Chen et al., 2018b；Long et al., 2015；Ronneberger et al., 2015；Zhao et al., 2017a）。与传统的机器学习分割方法如支持向量机（SVM）（Guo et al., 2018）、随机森林（Pal, 2005）和条件随机场（CRF）（Krähenbühl and Koltun, 2011）相比，基于CNN的方法能够捕捉更细粒度的局部上下文信息，增强了其在特征表示和模式识别方面的能力（Zhang et al., 2020a；Zhang et al., 2020b）。

尽管如此，卷积操作的固定感受野主要用于提取局部模式，自然缺乏建模全局上下文信息或长距离依赖的能力。对于语义分割而言，如果仅依赖局部信息进行像素级分类，通常会产生歧义，而借助全局上下文信息，像素的语义内容会更加准确（Yang et al., 2021a；Li et al., 2021c）。全局与局部上下文信息的关系如图1所示。尽管自注意力机制缓解了这一问题（Vaswani et al., 2017；Wang et al., 2018），但通常需要大量计算时间和内存来捕捉全局上下文，从而降低了效率，限制了其在实时城市场景中的应用潜力。
在这里插入图片描述
本文旨在在确保网络效率的同时实现精确的城市场景分割。受Transformer在计算机视觉领域取得的突破启发，我们提出了一种类UNet的Transformer（UNetFormer）以应对这一挑战。**UNetFormer创新性地采用了由基于CNN的编码器和专门设计的基于Transformer的解码器组成的混合架构。具体而言，我们采用ResNet18作为编码器，并设计了一个全局-局部Transformer块（GLTB）**来构建解码器。与标准Transformer中的传统自注意力块不同，所提出的GLTB开发了一种高效的全局-局部注意力机制，结合了注意力全局分支和卷积局部分支，以捕捉全局和局部上下文信息，如图2所示。在全局分支中，引入了基于窗口的多头自注意力和交叉窗口上下文交互模块，以低复杂度捕捉全局上下文（Liu et al., 2021）。在局部分支中，应用卷积层提取局部上下文。最后，为了有效融合空间细节和上下文信息并进一步精细化特征图，提出了特征精细化头（FRH），并将其附加在网络的末端。通过精度与效率之间的权衡以及有效的特征精细化，使所提出的方法在高效分割遥感城市场景图像方面超过了最先进的轻量级网络，已在四个公开数据集上得到验证：UAVid（Lyu et al., 2020）、ISPRS Vaihingen和Potsdam数据集，以及LoveDA（Wang et al., 2021a）。
在这里插入图片描述
本文其余部分组织如下：第二部分回顾了基于CNN和基于Transformer的城市场景分割及全局上下文建模相关研究；第三部分介绍了UNetFormer的结构，提出了GLTB和FRH；第四部分进行消融研究，展示GLTB和FRH的有效性以及新型混合结构，并将结果与应用于四个数据集的一系列最先进模型进行比较；第五部分提供全面讨论；第六部分为总结与结论。