论文翻译:M3Net

原文地址

原文:A deep learning method for building height estimation using high-resolution multi-view imagery over urban areas: A case study of 42 Chinese cities
原文地址:https://www.sciencedirect.com/science/article/pii/S0034425721003102

摘要

了解建筑高度对于理解城市发展过程至关重要。高分辨率光学卫星图像可以提供城市地区的精细空间细节,但它们还没有被应用于多个城市的建筑高度估算,精确(<5m)绘制建筑高度的可行性仍有待研究。多视角卫星图像可以描述建筑物的垂直信息,由于建筑物对不同视角的响应(如光谱变化和结构变化)不一致,但尚未应用于基于深度学习的建筑物高度估计。在此背景下,我们引入了高分辨率ZY-3多视点图像,以2.5 m的空间分辨率估计建筑高度。我们提出了一种用于建筑物高度估计的多光谱、多视角、多任务深度网络(简称M3Net),该网络将ZY- 3多光谱、多视角图像融合在一个多任务学习框架中。本文还提出了一种利用多源特征的随机森林(RF)方法。我们选择了42个不同建筑类型的中国城市来测试所提出的方法。结果表明,M3Net获得的均方根误差(RMSE)低于RF, ZY-3多视角图像的加入可以显著降低建筑高度预测的不确定性。与现有的两项最先进的研究进行比较,进一步证实了我们方法的优越性,特别是M3Net在缓解高层建筑高度估计饱和效应方面的有效性。与普通的单任务/多任务模型相比,M3Net也实现了较低的RMSE。此外,时空可转移性测试表明,M3Net对成像条件和建筑风格的鲁棒性。我们的方法在一个比较大的区域(约14,120平方公里)进行了测试,进一步验证了我们的方法在效果和质量方面的可扩展性。源代码可以在github上找到。

1. Introduction

建筑高度是城市形态垂直维度的表征,是城市发展的基本视角。最近的一项城市增长类型学研究表明,中国和韩国广泛出现向上和向外增长,高层建筑大量增加(Mahtta et al., 2019)。特别是,建筑高度为城市可持续发展提供了必要的知识,并在城市气候领域发挥着至关重要的作用(Berger et al., 2017;Giridharan等人,2004年;Venter等人,2020年)、污染传播(Hang等人,2012年)、建筑能耗(Güneralp等人,2017年)、人口估算(Leichtle等人,2019年;thomas et al., 2016;Xie et al., 2015),以及三维(3D)建筑重建(Haala and Kada, 2010)等。因此,建筑高度信息是全面了解城市发展的关键。

遥感技术为建筑物高度测绘提供了一种有效的工具。然而,很少有人致力于从高空间分辨率的图像中估算建筑物的高度(<5米),横跨多个城市。受三维数据可用性的限制,大量研究集中在二维(2D)城市信息提取上,只有很少的关于3D城市形态分析。最近,Sentinel-1卫星星座提供了免费的、全球可获得的10米空间分辨率c波段合成孔径雷达(SAR)数据,发现记录的后向散射值与建筑高度密切相关。在此背景下,Li et al. (2020b)提出了Sentinel-1后向散射强度指标,并利用该指标建立了基于美国(US) 7个城市的建筑高度模型。通过这个模型,他们生成了所有面积 > 500$km^2$ 的美国城市(如纽约、芝加哥、洛杉矶)的500米尺度的建筑高度。Li等人(2020a)训练了随机森林模型(Breiman, 2001),并开发了第一个大陆尺度(即中国、美国和欧洲)的3D建筑产品,包括建筑vj d占地面积、高度和体积,空间分辨率为1 km。此外,Frantz et al.(2021)采用了支持向量机回归模型(Cortes and Vapnik, 1995),并通过协同使用Sentinel-1和Sentinel-2时间序列,有效地检索出了整个德国10米的建筑高度(Malenovský et al., 2012)。这些研究已经很好地证明了区域和全球尺度下建筑高度估算的可行性和有效性,但它们的空间分辨率只允许估算聚集空间尺度下的建筑高度,无法涵盖单独建筑等级的异质性。

一般来说,精细尺度的建筑高度可以通过三种数据来估算:
1)光探测和测距(LiDAR) 2)雷达 3)高分辨率光学图像。
激光雷达可以高精度测量建筑高度,因此被广泛应用于三维建筑建模。然而,由于激光雷达的高采集成本,其覆盖范围仍然有限。
或者,雷达图像在建筑物高度估计方面具有很大的潜力,例如,单/立体SAR,干涉SAR和层析SAR 。然而,由于采用侧视几何,雷达图像通常记录来自不同微波散射形成的混合信号,导致建筑高度估计的不确定性相对较高(Sun等人,2019年)。
相比之下,高分辨率的光学图像可以缓解这一问题,提供城市内良好的空间细节和丰富的光谱信息。对于单一光学图像,可以从相邻阴影中重建建筑物高度。虽然这种技术对于某些类型的建筑是有效的,例如20米高的建筑,但它在很大程度上依赖于阴影检测的准确性。此外,在密集的城市环境中,阴影往往是扭曲的,因此是不完整的。另一方面,随着立体/多视角图像的可用性,可以很容易地从立体匹配生成的数字表面模型(DSMs)估算出建筑物高度。如Liu et al.(2017)利用形态学重构方法(Qin and Fang, 2014)将地形高度从DSM中去除,从而得到非地形高度,即归一化DSM (nDSM)来表示建筑物的高度。他们发现,由于建筑物的遮挡,DSM通常遭遇匹配失败。然而,应该指出的是,这些高分辨率的建筑高度研究仅限于小规模或局部地区,因此不知道该方法是否适用于多个城市。

如前所述,现有的方法很大程度上受阴影检测或图像立体匹配质量的影响。在此背景下,深度学习为建筑高度估计开辟了一条新的途径。卷积神经网络(cnn)作为一种特殊的深度图像结构,可以自动地从原始图像中提取多层特征,并取代传统的手工制作特征。因此,cnn已越来越多地应用于遥感领域,并在城市相关研究中取得了令人印象深刻的成果。特别是Taubenbo ck et al.(2020)使用CNN网络对局部气候区带进行了分类,并间接包含了结构类型的高度信息。最近,越来越多的研究探索了从单个高分辨率光学图像预测连续高度值(如DSM)的可行性。例如,Amirkolaee和Arefi(2019)开发了一种深度CNN,从单个航测图像估计DSM,并在ISPRS数据集上证明了其有效性(Rottensteiner等人,2012)。**特别是,为了充分利用不同任务的互信息,Carvalho等人(2019)引入了多任务学习网络(Naik和Rangwala, 2018),以同时处理土地覆盖制图和归一化DSM (nDSM)估计,他们发现多任务学习比单任务方法表现更好。**虽然单幅图像的高度估计在一定程度上取得了成功,但它仍然是一个有问题和具有挑战性的问题。因此,引入多视点图像来降低高度估计的不确定性是很自然的。多视点卫星图像可以提供建筑物的垂直信息,已应用于城市场景分类(Huang et al., 2018)。然而,据作者所知,在建筑物高度回归研究中并未考虑多视点卫星图像,其高度估计能力仍是未知的。

综上所述,尽管现有研究在建筑高度估算方面取得了一定的进展,但仍存在以下局限性:

  1. 高分辨率建筑高度估算研究大多局限于局部或小区域,缺乏跨多个城市的调查。
  2. 多视点卫星图像能够描述地物的垂直属性,但尚未应用于基于深度学习的建筑物高度估计。

针对这些问题和挑战,本研究介绍了中国分别于2012年、2016年和2020年发射的由三颗卫星组成的ZY-3立体卫星星座,即ZY-3 01、02和03。每颗卫星可以同时获取多光谱图像(空间分辨率为5.8 m)和多视角图像:正向(2.1 m)、+22°前向(2.5-3.5 m)和22°后向(2.5-3.5 m) 。多光谱和多视点图像的结合可以为建筑物高度估算提供良好的光谱、空间和垂直信息。在此背景下,我们以中国42个城市为研究对象,研究ZY-3多视点影像对建筑高度预测的有效性,并与现有方法的结果进行比较。因此,我们提出了一种多光谱、多视图、多任务深度网络(简称M3Net),该网络融合了ZY-3多光谱、多视图图像和多任务学习框架。为了比较的目的,我们也实现了一个随机森林(RF)方法使用多源特征来估计建筑物高度。我们旨在回答以下研究问题:

  1. ZY-3多视角图像能否提高建筑物高度估算的精度?
  2. 与现有的模型及结果相比,提出的M3Net高度估计的能力和优势是什么?
  3. M3Net是否能很好地跨越时空,覆盖大量的城市?

本文的其余部分安排如下。第二节介绍了研究的范围和数据。方法在第3节中介绍。接下来,在第4节报告结果,并在第5节讨论结果。最后,在第6节得出结论。

2.研究区域和数据

共选择了42个中国城市来评估所提出的方法(表1),包括4个直辖市、26个省会城市和12个大城市,代表了各种景观和城市化水平。由于这些城市的城市区域是人类活动的主要场所,包含不同颜色、形状、大小和高度的建筑,适合测试所提方法的泛化能力。

我们收集了ZY-3光学图像、参考建筑高度等数据,如Sentinel-2光学图像、Sentinel-1雷达图像、VIIRS可见光成像辐射计(Visible Infrared Imaging Radiometer Suite, VIIRS)夜间灯光数据、ALOS World 3D DSM、全球不透水区域(GISA)和Open- StreetMap (OSM)。请注意,本文提出的M3Net仅以ZY-3图像作为输入,而随机森林模型作为比较方法,使用ZY-3图像和其他数据作为输入。考虑到时间的一致性和数据的可用性,所有图像的采集时间应接近参考年2015。这些数据的详情见下文。

云量覆盖<10%的ZY-3遥感影像来自中国陆地卫星遥感应用中心。我们考虑的是2014年至2017年拍摄的照片,因为2015年有几个城市没有被完全覆盖。值得注意的是,每个ZY-3图像场景包含4幅地带约为50公里的图像,包括多光谱图像(蓝、绿、红、近红外波段,空间分辨率5.8 m)和三幅全色图像(分别为正向视角(2.1 m)、前向视角+22°(2.5-3.5 m)和后向视角22° (2.5-3.5 m)视角)。**数据预处理步骤包括辐射校正、正交校正、图像对图像配准和泛锐化。**对于每个ZY-3图像场景,使用自动生成的结点,通过多项式扭曲将前向、后向和多光谱图像几何配准到正向图像(Kennedy和Cohen, 2003),配准误差<1像素。所有图像重采样至2.5 m。然后利用Gram-Schmidt方法将多光谱图像与正向图像融合(Laben and Brower, 2000),增加多光谱图像的空间细节。为了减小多视图图像之间的辐射差,通过直方图匹配算法(Gonzalez and Woods, 2002)将前向和后向图像归一化至正视图像,ZY-3数据预处理的细节见(Huang et al., 2020;刘等,2019)。

参考建筑高度数据来自中国地图服务提供商a-map(见图1)。a-map通过实地调查收集了中国许多城市的包含层数的建筑物足迹,并以矢量形式公开发布。为了评估a-map中楼层数的准确性,我们借助百度街景图像,如图2(a)所示),对中国42个城市中随机分布的2324栋建筑的楼层数进行人工解译。如图2(b)所示,RMSE为1.190,验证了A-map中楼层数的高可靠性。然后,我们将楼层数转换为建筑物高度,假设每层楼高为3 m (Li et al., 2020a;郑等,2017;周等,2014)。据笔者所知,A-map提供的建筑高度是目前可公开获取的最可靠的数据,Li et al., 2020a已成功地作为大陆尺度建筑高度估算的参考数据。需要注意的是,受时间不一致的影响,原始参考数据在参考年2015可能存在一些误报和遗漏。因此,我们先将这些数据剪辑成1 km 1 km的样本,然后通过仔细的目视解译保留高质量的样本。这样,我们从42个城市中获得了4723个样本(表1),随机选取其中的70%、10%和20%分别进行培训、验证和测试。样本选取的一个例子如图3所示,图(d)和图(e)显示了1km样本内的参考建筑高度。

其他数据,包括Sentinel-2 top-of-atmosphere反射(TOA)图像, 包含VV和VH波段的Sentinel-1, VIIRS, 和ALOS世界三维数据,下载自谷歌地球引擎(GEE)云计算平台。对于Sentinel-2图像,我们使用Sen2Cor算法(Main-Knorn et al., 2017)生成大气底部(BOA)反射率产品。然后,我们计算所有无云Sentinel-2 BOA图像的每个像素的中值,得到最终的合成图像。对于Sentinel-1图像,我们将其转换为后向散射系数,通过计算每个像素的所有图像的均值,得到合成的Sentinel-1图像。最后,通过对每个像素取最大值,将VIIRS夜间图像聚合成一幅合成图像。此外,我们从http://irsip.whu.edu.cn/resources/gisa.html网站获得了包含1972年至2019年30 m空间分辨率的全球年度不入流地表面积的GISA,最后,我们从OpenStreetMap (OSM)获得道路层,并通过仔细的视觉检查,确保其接近2015年。请注意,这些数据集仅在随机森林方法中用于估计建筑高度(见第3.3节)。

3.方法

3.1 概述

由于ZY-3高分辨率图像具有较高的空间分辨率(2.5 m),具有预测建筑高度的潜力,能够反映单体建筑高度。因此,我们提出了一种多光谱、多视角、多任务深度网络(简称M3Net),该网络将ZY- 3多光谱、多视角图像融合在一个多任务学习框架中来估计建筑物高度。为了比较,我们还采用了一种多源特征随机森林(RF)方法,该方法已成功应用于相对粗糙尺度下的建筑高度回归(Geiß et al., 2020;Li等人,2020a)。与使用手工制作的特征的随机森林相比,M3Net可以从高分辨率图像中自动自适应地学习和提取特征(如纹理和形状)来预测建筑高度。为了评估这些方法的准确性,我们采用了广泛使用的均方根误差(RMSE)度量($RMSE = \sqrt{\frac{1} \sum_\left(\widehat-y\right){2}}$)来衡量N个观测中预测的($y$)和参考的($\widehat$)建筑高度值之间的差异。

3.2 用于估算建筑物高度的M3Net

我们提出了一种用于建筑物高度估计的多光谱、多视图、多任务深度网络(称为M3Net)(章节3.2.1)。提出了一种新的sy u损失函数作为网络的目标函数,基于每个任务的不确定性来衡量建筑高度估计和建筑足迹提取任务的损耗(章节3.2.2)。在实验设置(章节3.2.3)下,我们对网络进行训练,生成最终空间分辨率为2.5 m的建筑高度图。

3.2.1 M3Net的结构


图4显示了所提出的M3Net的结构,其中一个分支用于学习多光谱图像(红/绿/蓝/近红外波段),另一个分支用于学习多视图图像(正向/前向/后向图像)。我们采用U-Net作为每个分支的基础,这是一种高效且广泛使用的带跳跃连接的编码器-解码器网络。编码器-解码器网络依次由两部分组成:

  1. 编码器将任意大小的输入压缩成特征表示,并捕获多级上下文信息;
  2. 解码器,恢复空间细节,并预测与特征表示输入相同大小的输出。
    与分类网络从固定大小的输入产生单个标签相比,编码器-解码器网络可以从任意大小的输入获得像素级预测。然而,特征表示通常受到低空间分辨率的影响,导致输出的边界模糊(Ma et al., 2019)。因此,为了保留预测输出的细粒度细节,引入了跳过连接,通过直接将它们连接到解码器来重用编码器的特性。

在提出的网络中,编码器-解码器结构的主要组成部分包括:

  1. 卷积层(写为Conv),通过对输入图像与滤波核(如3x3)进行卷积生成特征图;
  2. 采用Max池化层,对小邻域进行Max操作,对样本特征映射进行下采样,提高局部平移不变性;
  3. 批量归一化层(BN),对每个训练小批进行特征映射归一化,以降低内部协变量移位;
  4. 转置卷积层(Trans- conv,又称反褶积),通过与滤波核的转置卷积运算来放大特征图;
  5. 校正线性单元(ReLU)激活函数,通过保持正值不变并将负值设为零,实现网络的非线性建模。

对于多视图分支(图4(a)),我们使用Conv、BN和ReLU组合两次将输入图像映射到feature maps,然后在编码阶段使用2x2 max pooling操作对feature maps进行下采样。这个过程被重复了四次,每次max pooling操作之后,我们将特征通道的数量增加了一倍。在解码阶段,通过Trans-conv运算,特征图的大小每次增加一倍。通过skip连接,将Trans-conv运算得到的特征图与编码器阶段得到的同尺度特征图串联起来,并使用两次Conv和ReLU组合得到新的特征图。我们重复这个过程4次,每次Trans-conv操作后特征通道的数量减半。最后,使用1x1 Conv生成建筑高度图。通过多视图分支,对多视图图像中呈现的建筑物的辐射和结构特征(如材料和侧面)进行自动编码,估算建筑物高度。

多光谱分支(图4(b))的组成与多视图分支相似。主要区别在于输入图像的通道数,多光谱分支为4个通道(红/绿/蓝/近红外波段),多视图分支为3个正向/前向/后向图像)。值得注意的是,与将所有图像放入一个编码器相比,我们采用了两个编码器的网络结构,用于多光谱和多视图图像,这使得每个编码器聚焦于特定类型的输入。然后在整个模型的中间和最后阶段融合两个分支,以提高高度估计的可靠性。特别地,对于多光谱分支,我们重用了多光谱图像中最深层的feature map,即编码部分的最后一层,作为两个解码器的输入,这两个解码器分别用于预测建筑高度和占地面积。同时学习建筑物高度预测和建筑物占地面积提取任务,以提高单任务的性能。这种技术被称为多任务学习,旨在通过并行学习多个相关任务来提高泛化能力(Caruana, 1997)。与单任务学习相比,多任务学习可以充分利用多个任务之间的相互信息,因此有望提高每个任务的性能。在本研究中,第二个任务,即建筑占地面积提取,被视为额外的监督,以支持优化的主要任务(即建筑高度估计),通过限制可能的解决方案的空间。最后,将多视图分支的建筑高度(BH1,见图4)与多光谱分支的建筑高度(BH2)和建筑足迹(BF)连接起来,预测最终的建筑高度(FBH)。

总之,M3Net的贡献是双重的。一是资源三号卫星能够同时提供包含丰富光谱和纹理信息的多光谱图像,以及能够以高空间分辨率描述地物垂直特征的多视角图像。通过两个编码器分别学习两种图像,然后融合学习到的特征表示,预测最终的建筑物高度。据作者所知,这是ZY-3图像首次应用于基于深度学习的建筑高度估计。其次,我们设计了一个多任务学习框架,即该网络同时学习建筑高度估计和建筑足迹提取任务,以提高单个任务的性能。

3.2.2 加权损失函数

不只是预测FBH,我们还考虑了前一节中提到的四个地图,即BH1、BH2、FBH和BF,并使用损失函数对它们进行优化,该函数旨在通过更新网络参数来减少预测和参考之间的差异。然而,要恰当地衡量每张地图的损失是一项挑战,手动调整搜索最佳权重既困难又耗时。针对这一问题,我们设计了一种基于任务不确定性的加权损失函数(Kendall et al., 2017),同时最小化BH1、BH2、FBH和BF这4张地图的预测误差。这使得我们的网络可以动态、自动地学习每个地图的权值,从而使权值的选择更加方便、高效。加权损失函数定义为:
$$
\operatorname
=\sum_{\mathrm=1}{4}\left(\mathrm{\mathrm} \mathrm{\mathrm}+\mathrm_{\mathrm}\right)
$$
针对建筑物高度回归任务(即BH1、BH2、FBH):
$$
\mathrm
=\frac{\exp \left(-\log \sigma
{2}\right)}{2}, \mathrm=\frac{\log \sigma{2}}{2}
$$
针对建筑物占地面积提取任务(即BF):
$$
\mathrm
=\exp \left(-\log \sigma
{2}\right), \mathrm=\frac{\log \sigma{2}}{2}
$$
式中,Li为任务i的损失函数,wi为权重项,ri为正则项,σ为任务不确定性。
均方误差(MSE)是一种广泛使用的回归损失函数(Carvalho et al., 2018),因此被用于建筑高度回归任务。MSE公式为:
$$\mathrm
{\mathrm}=\frac{1}{\mathrm{~N}} \sum{\mathrm=1}
{\mathrm}\left(\widehat{\mathrm}{\mathrm}-\mathrm{\mathrm}\right)^{2}$$
式中,$\widehat{\mathrm
}{\mathrm}$和$\mathrm{\mathrm}$表示观测i的预测高度值和参考建筑高度值,N为所有观测数。

在建筑足迹提取任务中,我们使用了流行的二元交叉熵(BCE)损失函数:
$$\mathrm
{\mathrm}=-\frac{1}{\mathrm{~N}} \sum{\mathrm=1}^{\mathrm}\left[\mathrm{\mathrm} \log \left(\mathrm{\mathrm}\right)+\left(1-\mathrm{\mathrm}\right) \log \left(1-\mathrm{\mathrm}\right)\right]$$
其中${\mathrm
}_{\mathrm}$表示观测i的参考建筑足迹标签(1表示建筑,0表示非建筑),pi表示观测i的建筑足迹预测概率。请注意,任务不确定性σ衡量任务的相对平衡。这样,四个不确定参数(BH1、BH2、FBH和BF任务)中的一个是固定的,其他三个通过网络学习自适应调整。具体来说,在本研究中,为了评估ZY-3图像对建筑高度预测的影响,我们将建筑足迹提取的不确定性参数(即BF)固定下来(章节5.1)。

3.2.3 网络设置

我们在训练集(第2节)上对M3Net进行300个epoch的训练,初始学习率0.001在epoch 200和250时衰减了0.1倍。选择Adam optimizer (Kingma and Ba, 2015)对网络参数进行优化,批量大小设置为16。培训程序由Pytorch框架实现,并在一台个人计算机上进行,该计算机具有2.60 GHz的Intel Core CPU i9 7980XE和单个NVIDIA GTX 1080 Ti GPU。一般来说,深度学习网络严重依赖于大量的训练样本,以避免过拟合和提高泛化能力(Shorten和Khoshgoftaar, 2019)。然而,高质量的训练样本通常是昂贵和有限的。为了缓解这个问题,我们加强训练集的大小采用数据增强策略(Buslaev et al ., 2018)概率为0.5,包括:图像水平和垂直翻转;旋转角度以15°为间隔[0, 180]区间;调整色彩空间,通过拉伸输入图像至[0, λ]区间,随机λ值[0.5, 1]。

3.3 随机森林建筑物高度估算:一个比较方法

作为比较,我们还采用了两步随机森林算法进行建筑高度估计,下面简要介绍。

3.3.1 Step 1

特征提取。利用ZY-3图像,我们提取归一化植被指数(NDVI)和归一化水指数(NDWI),因为这两个特征可以突出非城市地区(如植被和水)。从ZY-3多视图图像中获得的MABI能够表示建筑物的角度变化,因此,对于高度估计来说是包含信息的。之所以使用Sentinel-1的VV和VH波段,是因为它们与建筑高度密切相关。我们也纳入了Sentinel-2、VIIRS和ALOS World 3D数据,因为它们被认为对显示建筑面积和高度有用。在本研究中,我们使用了Sentinel-2的10个波段(即4个10米波段和6个20米波段),以及从Sentinel-2中提取的4个指标,包括归一化差异建设指数(NDBI)、城市指数(UI)、裸土指数(BI)和NDVI (Mushore et al., 2017)。对于ALOS数据,我们提取了坡度、坡向(Burrough and McDonnell, 1998)和归一化数字表面模型。我们将GISA作为市区,使用OSM去除市区内的道路,以缓解非建筑区域(如植被和高架桥)的影响。总的来说,我们关注了31个解释变量,包括21张图片和上述10个指标,重新采样到2.5 m。所有的解释变量都通过层叠加的方式放在一起。

3.3.2 Step 2

随机森林回归。在所有解释变量和参考建筑高度的情况下,我们在训练集上训练一个随机森林回归模型(Breiman, 2001)。随机森林的关键参数包括树的数量(记为ntree)和用于训练每棵树的特征的数量(记为mtry)。在本研究中,mtry设置为默认值,即特征总数的1/3。我们以50为间隔搜索ntree,从50到1000,根据验证集选择均方根误差最小的最优值。

4.结果

4.1 M3Net在42个中国城市上的表现


图5展示了本文提出的M3Net方法和随机森林(RF)方法对测试集的建筑物高度预测结果的精度。总体而言,M3Net得到的均方根误差低于RF,与RF的预测值相比,M3Net估算的建筑物高度与参考高度具有更好的一致性。特别地,RF模型倾向于低估高层建筑的高度,而M3Net在估算这些高层建筑时可以缓解饱和效应,说明其对建筑高度的估算性能较好。M3Net在高层建筑估算方面的优势也可以在粗尺度上观察到(见图12和图14)。此外,有ZY-3图像的RF比没有ZY-3图像的RF得到更低的RMSE,vg m证明ZY-3图像对建筑物高度估计的有效性(进一步分析见5.1节)。

图6显示了M3Net训练阶段的任务不确定性的曲线。如第3.2.2节所述,我们固定了建筑足迹提取任务的不确定性参数,只调整了建筑高度预测任务的不确定性参数,包括来自多视图(MV)分支的BH1,来自多光谱(MS)分支的BH2,以及来自两个分支(MS+MV)融合的FBH。为了达到更好的数值稳定性,我们优化了$Log σ^2$,改用σ。可以看出,融合方法(MS + MV)获得了最低的任务不确定性,而多光谱分支(MS)的任务不确定性最大。这些结果清楚地表明了多视角图像有减少建筑物高度预测不确定性的效果。

为了便于目测,图7给出了北京、沈阳和乌鲁木齐3个城市采用M3Net模型和RF模型估算的建筑高度图。由于城市化进程和城市规划政策的不同,这三个地区的建筑风格也不尽相同。在北京地区,RF估算的建筑高度值与M3Net估算的高度值吻合较好,尤其是低层建筑区域。然而,对于RF,在高层建筑区域明显可以观察到严重的低估,但M3Net可以很好地缓解这个问题。沈阳和乌鲁木齐地区也出现了同样的现象。此外,由于使用了高分辨率的ZY-3图像,更多的空间细节,例如个别建筑物(见图7中的放大区域)得到了展示。

此外,一个典型区域的结果被可视化,以显示建筑高度从中心到外围的变化(图8)。具体我们收集了2015年4月14日拍摄的一幅ZY-3影像场景,面积约为2612平方公里。该图像场景包括城市核心区域(见图8(a)中的红色多边形)以及广州和佛山城市的外围。建筑高度参考数据(图8(b))由a图提供,主要分布在城市核心区及其周边地区。预测结果如图8(c)所示。

总体而言,预测的建筑高度与参考高度吻合较好,可以观察到建筑高度从中心区向外围明显下降的趋势,这与之前的研究一致。此外,在图8(d)中显示了一个放大的区域(图8(a)中的黄色矩形),空间范围为5km ~ 17km。可以看出,平均建筑高度由东(城市核心区域)向西(外围区域)逐渐降低。此外,图8(f)通过高分辨率的ZY-3图像,展示了建筑和非建筑(如水、道路)的丰富空间细节。这些结果证实了所提方法(即M3Net)对高分辨率建筑物高度估计的有效性。

4.2相对较大的区域的建筑物高度

为了评估所提出的方法在大面积地区的可扩展性,我们将我们的方法应用于位于中国南部珠江三角洲的一个相对较大的地区(图9(a))。我们从中国陆地卫星遥感应用中心(LASAC)收集了6个ZY-3图像场景,面积约为14120平方公里,在采集时间为2013年至2014年期间。每个ZY-3图像场景包含四幅图像,地面扫描范围约为50公里,包括多光谱图像(蓝、绿、红和近红外波段,空间分辨率为5.8米)和三幅全色图像(分别以正向(2.1米)、+22◦前向(2.5-3.5米)和-22◦后向(2.5-3.5米)的观察角度)。所有图像都经过辐射校正、正交校正、图像对图像配准和泛锐化预处理(Liu et al., 2019)。然后将每个图像场景重采样到2.5 m,平均大小为24,029 x 23,884像素。我们将gz j构建的M3Net模型应用于这个测试区域。预测结果如图9(b)所示。可以看出,建筑区域和非建筑区域(如水和森林)有很好的区分。大部分建筑位于深圳北部,平均高度约为15米(~5层)。高层建筑区域主要分布在深圳西南部,平均高度值在30 m以上。该模型在单个GTX 1080 Ti GPU上的运行时间为1.046 s,总面积为100 km2。对6幅图像的总推理时间约为229s。注意,如果有更多的gpu可用,推理时间可以以并行方式进一步减少。

此外,以2017年从机载LiDAR数据中获取的整个深圳市的建筑高度作为参考,以评价产生的建筑高度的质量。请注意,机载LiDAR可以提供高度精确的高程测量,并被广泛采用为建筑高度参考数据。获得的参考数据最初是以矢量形式提供的,即带有高度的建筑物脚印,然后将其转换为空间分辨率为2.5米的栅格形式(图10(b)),以便与预测的高度图进行比较。如图11所示,所提出的M3Net的RMSE为6.453米,表明它与LiDAR高度参考有很好的一致性。图10(c)显示了M3Net预测的高度。我们可以看到,M3Net可以有效地预测高层、中层和低层建筑区的大部分建筑物的高度值,分别对应于图10中的(d)、(g)和(j)。总的来说,从效率(运行时间)和质量的角度来看,上述结果表明,所提出的M3Net在处理大面积的建筑物高度估计方面是有希望的。

5.讨论

5.1 ZY-3图像的效果

ZY-3卫星可以在同一地区同时获得高分辨率的多光谱(5.8米)和多视角图像,视角正向(2.1米)、+22◦前向(2.5-3.5米)和-22◦后向(2.5-3.5米)。多光谱图像可以提供丰富的光谱和纹理特征,而多视角图像可以描述地面物体的垂直信息。以前的研究已经成功地将ZY-3图像应用于城市场景分类(Huang等人,2018),用于识别高楼和低层城中村,并通过多角度特征提取建成区域(Liu等人,2019)。然而,多视角卫星图像在建筑高度回归中尚未被考虑,其高度估计能力仍是未知数。

因此,我们通过提出的M3Net联合使用多光谱图像和多视角图像进行建筑物高度估计,并设计了一个基于任务不确定性的加权损失函数来自动权衡从多视角图像、多光谱图像及它们的组合中估计的建筑物高度的重要性。不确定性曲线(图6)表明,在建筑物高度估计方面,多视角图像比多光谱图像表现更好,有必要协同使用这两个信息源。此外,我们比较了有无ZY-3图像的随机森林,结果(图5(b-c))验证了加入ZY-3图像可以显著提高建筑高度估算的准确性。根据可视化的结果(图7),高分辨率的ZY-3图像的引入提供了丰富的空间细节,例如,建筑物(具有不同的颜色、形状和大小)、阴影、道路和植被,这有助于区分建筑物和非建筑物,并更准确地估计具有不同特征的建筑物的高度。

5.2 与已有研究相比

为了进一步评估所提出的M3Net的性能,我们将其与现有的三种最先进的建筑高度预测方法进行了比较。

  1. 随机森林方法(1km尺度),使用多源数据,包括Landsat-8光学图像、Sentinel-1雷达图像、MODIS产品的增强植被指数(EVI)、VIIRS、全球城市足迹(GUF)和OSM
  2. 500m尺度下Sentinel-1雷达VH和VV信息集成的指标模型
  3. 普通的单/多任务深度学习模型

在分析前两种方法时,我们也提出了我们的随机森林方法的结果(见第3.3节),以进行比较。为了统一不同方法和结果之间的空间分辨率(或尺度),我们采用了空间聚合的方法:

  1. 对于来自M3Net的预测建筑高度(2.5米),我们根据建筑高度的定义,将其聚合到一个目标尺度(1公里或500米)
  2. 针对RF模型(第3.3节),我们首先通过计算各像素的平均值将所有解释变量聚合到目标尺度(如500米或1公里),然后训练一个随机森林模型来预测目标尺度上的建筑高度。

建筑物高度的参考数据(第2节)也被聚合到相应的目标尺度,以进行精度评估。

在Li等人,2020a中,开发了两个模型:

  1. 为每个地区(如中国、美国和欧洲)单独训练的模型
  2. 为所有三个地区开发的综合模型。

他们发现这两个模型的准确度相当,但综合模型的不确定性比单独模型低。他们公布了两个模型在三个地区生成的最终建筑高度地图(空间分辨率为1公里),其中建筑高度被定义为一个像素中所有建筑的区域加权高度。我们将这些地图剪切到我们的研究区域,并将我们的结果与Li等人在2020年a产生的1公里尺度的地图进行比较。应该指出的是,由于我们使用了与Li等人,2020a所采用的相同的建筑高度参考,因此预测结果具有可比性。如图12所示,我们的方法得到的RMSE比Li等人, 2020a开发的方法低。这主要是由于我们的方法引入了高分辨率的ZY-3多光谱和多视图图像,可以提供丰富的光谱、纹理和建筑物的垂直信息。此外,我们可以观察到,与随机森林方法相比,M3Net可以缓解高层建筑估计的饱和效应。

图13比较了我们的方法和Li et al., 2020a的建筑高度图。总的来说,两个结果在大多数地区都显示出类似的趋势。差异主要出现在高层建筑和裸地混合的地区(见图13第二行)。Li等人的模型,2020a倾向于低估这些地区,主要是由于图像的分辨率相对粗糙。相比之下,我们的方法可以缓解这个问题,通过ZY-3高分辨率图像的帮助。此外,我们可以发现,与其他方法相比,M3Net在人口稀少和稠密的地区都更有效。其主要原因在于深度学习网络的多尺度和多层次特征表示能力(Yuan等人,2020),与其他方法使用的手工特征提取相比。此外,对于M3Net来说,首先生成2.5米尺度的建筑高度,然后再聚合到1公里,而其他方法是用聚合到1公里的图像来预测建筑高度。M3Net采用的 "先预测-后聚合 "策略可以更好地利用空间细节,从而减少1公里网格内的混合效应。Frantz等人(2021)也提到了这种现象。

Li等人(2020b)通过将对数转换后的建筑物高度(写成ln H)与500米尺度的Sentinel-1雷达数据的VV和VH背向散射系数联系起来,开发了一个基于指标的模型(见图14(d)中开发的模型)。为了便于比较,这里采用Li等人(2020b)提出的指标模型,根据500米的分辨率下的中国的训练样本,预测中国42个城市的建筑高度。具体地,根据中国的样本,确定指标模型的参数a、b、c和γ分别为21.183、0.055、−19.785和5。注意,根据Li等人(2020b),建筑高度被定义为500米网格内建筑和非建筑的平均高度。因此,为了确保公平的比较,我们在本实验中也采用了相同的定义。如图14所示,我们的方法取得了比指标模型更低的RMSE,大多数估计的建筑高度值都位于一对一的直线上,表明我们的方法具有优越性。

图15显示了北京、沈阳和乌鲁木齐的建筑高度图,供人们目测。总的来说,Li等人(2020b)生成的建筑高度图和我们的方法在大多数地区都是一致的。不一致的地方主要存在于高层建筑区(见图15中的特写)。对于Li等人(2020b)的指标模型,尽管来自Sentinel-1雷达数据的后向散射系数可以捕捉到高度的变化,但对于高度相似的建筑物来说,它们可能是不同的,但同时对于不同高度的建筑物来说,它们又是相似的,这是由复杂多样的建筑材料和布局以及雷达数据的有限信息造成的(Koppel等人,2017)。对此,在我们的RF方法中考虑了多源数据(如光学、多视角、雷达和夜间灯光),以缓解单个特征的不确定性。然而,如前所述,我们仍然可以观察到,RF模型有低估3层高层建筑高度的趋势(见图15中的特写)。相比之下,M3Net可以很好地捕捉到从高层到低层建筑区的高度变化,这是因为其强大的特征表示能力和采用的 "预测-然后-聚合 "策略,正如在与Li等人(2020a)的方法比较中提到的。

最后,我们将提出的M3Net与原始的单任务/多任务模型(Carvalho等人,2019)进行了比较(图S1)。原始单任务模型使用一个编码器处理所有图像,一个解码器预测建筑高度,而原始多任务模型采用两个解码器,分别用于建筑高度估计和建筑足迹提取。注意,原始多任务模型和我们的方法(M3Net)之间的主要区别是,前者只采用一个编码器来处理所有图像,而后者则融合了两个编码器,分别从多光谱和多视角图像中提取特征。结果表明,我们的网络性能优于普通的单任务/多任务模型,并且在建筑物高度预测方面,多任务结构优于单任务结构(图S2)。详情见附录A。

5.3 时空可转移性


时空的可转移性是指在某一时间和某一区域训练出来的模型推广到新的时间和新的区域的能力,这种能力在自动大规模测绘任务中至关重要。由于复杂的成像条件(如光照和大气影响)和不同的建筑类型,要实现有效的空间-时间转移性是很有挑战性的。在这项研究中,为了测试时空转换性,我们在中国的五个城市(北京、上海、深圳、武汉和西安)收集了1131个新的参考建筑高度样本(每个样本的空间范围为1公里×1公里)(表2)。这些在新的日期收集的样本与用于训练M3Net的样本覆盖相同的区域,以确保新旧图像之间的差异仅仅在于采集时间。另一方面,为了测试空间转移性,我们在美国的三个城市(芝加哥、得梅因和洛杉矶)获得了1931个参考建筑高度样本(每个样本的空间范围为1公里×1公里)。参考建筑高度数据可从当地政府公开获取,数据来源见表2。如图16所示,我们可以观察到美国的建筑在颜色、尺寸、高度和空间分布上与中国的建筑有所不同,因此,这适合于评估网络对不同建筑风格的鲁棒性。

根据图17所示的时间转移性结果,当网络应用于新日期的图像时,所有五个城市的网络RMSE增加不到1.5米,这在一定程度上表明了所提出的M3Net对不同成像条件的鲁棒性。

在空间转移性方面,我们在四种情况下比较了M3Net。

  1. 中国模型--只用中国的训练集训练的M3Net
  2. 美国模型--只用美国的训练集训练的M3Net
  3. 组合模型--用美国和中国的训练集从头开始训练的M3Net
  4. 微调模型--用中国的训练集训练但用美国的训练集微调的M3Net

组合模型(设置3)和微调模型(设置4)的区别在于,前者是用随机权重初始化的,而后者是用中国训练集的权重初始化的。因此,与组合模型相比,微调模型已经具备了在源区(中国)建立高度估计的能力,但它需要适应目标区(美国)。这样一来,对训练数据和时间的需求就可以大大减少。请注意,美国的样本被随机分成空间上不相连的训练集(70%)、验证集(10%)和测试集(20%),这与中国的样本选择相同(第二节)。图18显示了四个模型在美国测试集上的RMSE。有趣的是,即使将中国模型直接应用于美国的三个城市(没有美国的任何样本),所有城市的RMSE值都是令人满意的(平均为3.3米),表明该模型在空间转移性方面的稳健性。我们还可以发现,当同时使用中国和美国的训练集时(即设置3和4),与综合模型(设置3)相比,微调模型(设置4)获得的RMSE更低,这表明微调方法能够更好地适应新的区域。微调方法更有效率,因为它是建立在一个训练有素的模型(即中国模型)之上。

5.4 可扩展性和限制

关于我们的方法(M3Net)的可扩展性,我们已经在中国南部海岸线相对较大的区域进行了测试(第4.2节)。我们使用了6张ZY-3图像,覆盖了大约14120平方公里,使用单个GTX 1080 Ti GPU,6张图像的总推理时间约为229秒。整个深圳市的建筑高度预测的RMSE达到了6.453米,与LiDAR的高度参考显示出良好的一致性(图10-11)。因此,从效率(运行时间)和质量的角度来看,预测结果证实了将M3Net扩展到大面积建筑高度估算的潜力。在未来的研究中,我们将尝试将我们的方法应用于更大的区域,以实现高分辨率的建筑高度估计。

这项研究仍然存在一些局限性:

  1. 我们对农村场景的测试是有限的。在这项研究中,我们把重点放在城市地区,因为它们是人类活动的主要场所,包含不同颜色、形状、大小和高度的各种建筑,因此,它们非常适用于测试所提出的方法的泛化能力。至于农村地区,遗憾的是目前还没有建筑高度的参考数据,因此我们的方法在农村场景上的测试是受限和困难的。未来,当农村地区的样本有了,我们的方法就可以方便地应用或评估。
  2. M3Net的可移植性。尽管在本研究中,M3Net表现出良好的跨空间和跨时间的泛化能力,但在与研究地区完全不同的新地区,它的泛化能力可能不强。
    • 在未来的研究中,我们计划考虑迁移学习技术,该技术可以将源域(现有任务)的知识调整到目标域(新任务),并缓解目标域训练数据不足的问题。例如,在空间转移性测试中(第5.3节),我们提出了一种微调的方法,重新使用从中国(即源域)的训练集学到的网络,然后在美国(即目标域)的训练集上微调该网络。但在未来的工作中,可以研究更复杂的迁移学习方法,如适应数据分布,以充分利用源域的样本来提高目标域的网络性能。
  3. 数据获取的限制。本研究中使用的ZY-3图像是从中国陆地卫星遥感应用中心(LASAC)获得的,这个数据源并不公开。数据获取的限制使得我们很难绘制大面积的高分辨率建筑高度图。但是,我们展示了ZY-3图像对中国42个城市建筑高度的估算效果,这为相关研究提供了宝贵的参考。

6.结论

在这项研究中,我们旨在利用高分辨率的多视角图像来估计中国42个城市的建筑高度。关于高分辨率建筑高度的估计,现有的研究:

  1. 大多局限于局部或小范围,而对多类型城市的研究仍是缺乏的。
  2. 高分辨率图像有在精细的尺度上估计建筑物的高度的潜力,而大多数研究集中在粗略的分辨率上。
  3. 多视角卫星图像可以很好地描述建筑物的垂直维度;然而,它们还没有被用于基于深度学习的建筑物高度估计。

鉴于这些问题,我们引入了高分辨率的ZY-3卫星,它可以同时获取多光谱和多视角图像。我们提出了多光谱、多视角、多任务的深度网络(M3Net),用于建筑高度估计。在M3Net中,我们通过两个编码器将ZY-3的多光谱和多视角图像分别映射到深层特征表示中,然后融合学到的特征表示用于建筑物高度估算。此外,我们在一个多任务学习网络中加入了建筑物高度估计和足迹提取,以提高单一任务的性能。作为比较,我们使用多源特征实现了随机森林(RF)方法。

共有42个中国城市被用来测试所提出方法的性能。结果显示,M3Net的表现优于RF模型,尤其是前者可以在一定程度上缓解高层建筑(超过30米)高度预测的饱和效应。此外,我们发现加入ZY-3多视角图像可以显著降低建筑高度预估的不确定性。我们将我们的方法与现有的两个最先进的建筑高度估计研究进行了比较,发现由于深度学习网络强大的特征表示能力,M3Net可以很好地捕捉人口密集和人口稀少地区的高度变化。此外,通过与普通的单任务/多任务模型的比较,提出的M3Net获得了较低的RMSE,表明它可以更好地利用ZY-3的多视图和多光谱信息。值得注意的是,在空间-时间转移性的实验中,M3Net对成像条件和不同的建筑风格表现出令人满意的鲁棒性。我们在一个相对较大的区域测试了我们的方法,面积约为14120平方公里,结果从效率(运行时间)和质量的角度验证了我们方法的良好可扩展性。这些发现证实了高分辨率的ZY-3图像对建筑高度的估算是有价值的,M3Net在大规模建筑高度自动测绘方面具有很大的潜力。

tag(s):
show comments · back · home