【深度学习遥感分割|论文解读1】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割

news/2024/11/6 9:15:59 标签: cnn, transformer, 人工智能, 网络, 深度学习

深度学习遥感分割|论文解读1】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割

深度学习遥感分割|论文解读1】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割


文章目录

  • 深度学习遥感分割|论文解读1】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割
  • 前言
  • 1. Introduction


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0924271622001654

前言

遥感城市场景图像的语义分割在土地覆盖制图、城市变化检测、环境保护和经济评估等众多实际应用中至关重要。随着深度学习技术的快速发展,卷积神经网络(CNN)在语义分割领域占据了主导地位。CNN采用层级特征表示,展现了强大的信息提取能力。

然而,卷积层的局部特性限制了网络捕捉全局上下文的能力。近年来,Transformer作为计算机视觉领域的热门话题,展现了在全局信息建模方面的巨大潜力,推动了图像分类、目标检测和特别是语义分割等视觉相关任务的发展

本文提出了一种基于Transformer的解码器,并构建了类UNet的Transformer(UNetFormer)用于实时城市场景分割。为实现高效分割,UNetFormer选择轻量级的ResNet18作为编码器,并在解码器中开发了一种高效的全局-局部注意力机制,以建模全局和局部信息。大量实验表明,我们的方法在运行速度和精度上均优于当前最先进的轻量级模型。具体而言,所提出的UNetFormer在UAVid和LoveDA数据集上分别达到了67.8%和52.4%的mIoU,同时在单个NVIDIA GTX 3090 GPU上,512×512输入的推理速度可达到322.4 FPS。在进一步探索中,提出的基于Transformer的解码器结合Swin Transformer编码器在Vaihingen数据集上也取得了最先进的结果(91.3% F1和84.1% mIoU)。

源代码将在https://github.com/WangLibo1995/GeoSeg上免费提供。

1. Introduction

受传感器技术进步驱动,高分辨率遥感城市场景图像在全球范围内越来越多地被捕获,展现出丰富的空间细节和潜在的语义内容。城市场景图像广泛应用于语义分割,即像素级分割和分类,推动了土地覆盖制图(Li et al., 2022b;Maggiori et al., 2016;Marcos et al., 2018)、变化检测(Xing et al., 2018;Yin et al., 2018)、环境保护(Samie et al., 2020)、道路和建筑提取(Griffiths and Boehm, 2019;Shamsolmoali et al., 2020;Vakalopoulou et al., 2015)等多个城市相关应用(Picoli et al., 2018;Shen et al., 2019)。

近年来,深度学习技术(LeCun et al., 2015),尤其是卷积神经网络(CNN),主导了语义分割任务(Chen et al., 2014;Chen et al., 2018b;Long et al., 2015;Ronneberger et al., 2015;Zhao et al., 2017a)。与传统的机器学习分割方法如支持向量机(SVM)(Guo et al., 2018)、随机森林(Pal, 2005)和条件随机场(CRF)(Krähenbühl and Koltun, 2011)相比,基于CNN的方法能够捕捉更细粒度的局部上下文信息,增强了其在特征表示和模式识别方面的能力(Zhang et al., 2020a;Zhang et al., 2020b)。

尽管如此,卷积操作的固定感受野主要用于提取局部模式,自然缺乏建模全局上下文信息或长距离依赖的能力对于语义分割而言,如果仅依赖局部信息进行像素级分类,通常会产生歧义,而借助全局上下文信息,像素的语义内容会更加准确(Yang et al., 2021a;Li et al., 2021c)。全局与局部上下文信息的关系如图1所示。尽管自注意力机制缓解了这一问题(Vaswani et al., 2017;Wang et al., 2018),但通常需要大量计算时间和内存来捕捉全局上下文,从而降低了效率,限制了其在实时城市场景中的应用潜力。
在这里插入图片描述
本文旨在在确保网络效率的同时实现精确的城市场景分割。受Transformer在计算机视觉领域取得的突破启发,我们提出了一种类UNet的Transformer(UNetFormer)以应对这一挑战。**UNetFormer创新性地采用了由基于CNN的编码器和专门设计的基于Transformer的解码器组成的混合架构。具体而言,我们采用ResNet18作为编码器,并设计了一个全局-局部Transformer块(GLTB)**来构建解码器。与标准Transformer中的传统自注意力块不同,所提出的GLTB开发了一种高效的全局-局部注意力机制,结合了注意力全局分支和卷积局部分支,以捕捉全局和局部上下文信息,如图2所示。在全局分支中,引入了基于窗口的多头自注意力和交叉窗口上下文交互模块,以低复杂度捕捉全局上下文(Liu et al., 2021)。在局部分支中,应用卷积层提取局部上下文。最后,为了有效融合空间细节和上下文信息并进一步精细化特征图,提出了特征精细化头(FRH),并将其附加在网络的末端。通过精度与效率之间的权衡以及有效的特征精细化,使所提出的方法在高效分割遥感城市场景图像方面超过了最先进的轻量级网络,已在四个公开数据集上得到验证:UAVid(Lyu et al., 2020)、ISPRS Vaihingen和Potsdam数据集,以及LoveDA(Wang et al., 2021a)。
在这里插入图片描述
本文其余部分组织如下:第二部分回顾了基于CNN和基于Transformer的城市场景分割及全局上下文建模相关研究;第三部分介绍了UNetFormer的结构,提出了GLTB和FRH;第四部分进行消融研究,展示GLTB和FRH的有效性以及新型混合结构,并将结果与应用于四个数据集的一系列最先进模型进行比较;第五部分提供全面讨论;第六部分为总结与结论。

欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz


http://www.niftyadmin.cn/n/5740720.html

相关文章

一篇文章速通Java开发Stream流(流水线开发附斗地主小游戏综合案例)

1-认识Sream流 是JDK8开始新增的一套API(java.util.stream.*),可以用于操作集合或者数组的数据。 优势:Stream流大量的结合了Lambda语法风格来编程,功能强大,性能高效,代码简洁,可…

acmessl.cn推荐一款好用的免费申请ssl证书的平台

目录 一、引言 二、准备工作 三、申请 SSL 证书 四、安装 SSL 证书 五、验证 SSL 证书 六、注意事项 七、证书API 七、联系支持 一、引言 ACMESSL 是一个提供免费 Lets Encrypt、ZeroSSL、Google Public CA SSL 证书申请的可视化工具平台,简化SSL证书获取过…

Python小白学习教程从入门到入坑------第二十五课 多态(语法进阶)

一、多态 含义:指同一种行为具有不同的表现形式 一个对象具有多种形态,在不同的使用环境中以不同的形态展示其功能,那我们就称该对象具有多态特征 eg: 号在不同的使用环境中,有着不同的功能 print(1010) # 算…

【Unity】Unity拖拽在Android设备有延迟和卡顿问题的解决

一、介绍 在制作Block类游戏时,其核心的逻辑就是拖拽方块放入到地图中,这里最先想到的就是Unity的拖拽接口IDragHandler,然后通过 IPointerDownHandler, IPointerUpHandler 这两个接口判断按下和松手,具体的实现逻辑就是下面 public void On…

docker+nacos

安装数据库 以docker安装为例(实际建议实体) 初始化数据库 /******************************************/ /* 数据库全名 nacos_config */ /* 表名称 config_info */ /******************************************/ CREATE TABLE config_i…

Android 依赖统一配置管理(Version Catalogs)

最近升级了Android Studio版本到Koala Feature Drop | 2024.1.2,新建项目后发现项目配置又有变化,默认开始使用了一个名叫 Gradle 版本目录的东西,当然也可以称之为依赖统一配置管理,一开始还有点陌生,但是经过一番了解…

【用Rust写CAD】第二章 第二节 函数

文章目录 1、 函数基本形式2、函数参数 1、 函数基本形式 Rust 函数的基本形式&#xff1a; fn <函数名> ( <参数> ) <函数体>其中 Rust 函数名称的命名风格是小写字母以下划线分割&#xff1a; 实例 fn main() {println!("Hello, world!");ano…

导入和部署自定义 LLM 大模型

本文以【Qwen2-7B-Instruct】模型为例&#xff0c;指导如何将自定义大模型导入到 TI 平台&#xff0c;并使用平台内置推理镜像部署大模型对话推理服务。 前置要求 申请 CFS 本文所涉及到的操作需要通过 CFS 存储模型文件&#xff0c;详情请查看创建文件系统及挂载点。 操作…