面向地表温度跨尺度融合的动态神经网络

 

来自卫星热传感器的陆地表面温度(LST)数据捕捉了地球表面能量分布在空间和时间上的详细变化。这些数据在蒸散观测和城市热建模等应用中发挥着重要作用[1-3]。然而,由于卫星轨道和传感器设计的限制,热波段的空间分辨率和时间分辨率之间通常存在权衡。日常传感器只能提供较低空间分辨率的数据,如分辨率为 1 公里的 MODIS LST。精细分辨率(100 或更低)的传感器通常受限于其扫描带宽度和轨道高度...

来自卫星热传感器的陆地表面温度(LST)数据捕捉了地球表面能量分布在空间和时间上的详细变化。这些数据在蒸散观测和城市热建模等应用中发挥着重要作用[1-3]。然而,由于卫星轨道和传感器设计的限制,热波段的空间分辨率和时间分辨率之间通常存在权衡。日常传感器只能提供较低空间分辨率的数据,如分辨率为 1 公里的 MODIS LST。精细分辨率(100 或更低)的传感器通常受限于其扫描带宽度和轨道高度,只能提供数天内的数据,如大地遥感卫星系列平台的八天内数据(结合Landsat-7 、8和 9)。因此,在提升可用卫星资源方面,合并多个卫星传感器的数据是获得高时空分辨率观测数据的关键挑战之一,这将进一步惠及地表能量建模和精准农业等许多综合应用。

原文链接

Guo, S., Li, M., Li, Y., Chen, J., Zhang, H. K., Sun, L., Wang, J., Wang, R., & Yang, Y. (2024). The Improved U-STFM : A Deep Learning-Based Nonlinear Spatial-Temporal Fusion Model for Land Surface Temperature Downscaling. Remote Sensing, 16(322), 1–28.

研究背景

来自卫星热传感器的陆地表面温度(LST)数据捕捉了地球表面能量分布在空间和时间上的详细变化。这些数据在蒸散观测和城市热建模等应用中发挥着重要作用[1-3]。然而,由于卫星轨道和传感器设计的限制,热波段的空间分辨率和时间分辨率之间通常存在权衡。日常传感器只能提供较低空间分辨率的数据,如分辨率为 1 公里的 MODIS LST。精细分辨率(100 或更低)的传感器通常受限于其扫描带宽度和轨道高度,只能提供数天内的数据,如大地遥感卫星系列平台的八天内数据(结合Landsat-7 、8和 9)。因此,在提升可用卫星资源方面,合并多个卫星传感器的数据是获得高时空分辨率观测数据的关键挑战之一,这将进一步惠及地表能量建模和精准农业等许多综合应用[3]。

为了克服这一限制,最近在计算机视觉和遥感领域开发了许多超分辨率或融合模型,以生成具有精细空间分辨率的每日LST观测数据。这些模型可分为三类:(1)基于学习的;(2)基于回归的;(3)基于时空融合的。

基于学习的模型主要是从计算机视觉的角度出发,假设粗像素和细像素之间的关系可以用点扩散函数(PSF)来描述,PSF 代表了低分辨率像素与高分辨率像素的混合过程[4]。PSF与尺度相关,但保持时空一致性,可通过学习系统建模。2015年之前,PSF 主要使用图像重建(RE)模型构建,如基于核的方法[5]、解卷积模型[6]、稀疏编码[7-9]和基于SVM的方法[10]。随着深度学习技术在语义分割和成像领域的长足进步,深度网络首次被引入到超分辨率问题中,利用 SRCNN [11]和SRGAN [12]捕捉PSF。后来,这些技术增强了遥感领域的模型,包括基于 CNN 的模型: STFDCNN[13]、DCSTFN[14]、stfNet[15]、EDCSTFN[16]和 HSRNet[17];以及基于GAN:ISRGAN [18]、STFGAN [19]、CycleGAN-STF [20]和GAN-STFM [21]。基于学习的模型的优势在于,一旦用足够的样本对其进行了训练,预测的准确性和效率都能得到保证。然而,考虑到每日LST的空间和时间变化都很快,通用PSF可能无法根据有限的样本准确捕捉低分辨率遥感图像的混合情况。此外,如果没有物理原理的指导,基于深度学习的模型所学习到的特征和权重通常很难被人类理解,这就限制了在出现不可靠预测时的错误追踪。

基于学习的模型侧重于仅从粗略和精细图像中学习两者之间的关系,与之相反,第二类模型包括基于回归的模型。这些模型所依据的假设是,传感器探测到的热波段值可通过几个辅助生物物理参数(如地表反射比、土地利用、土地覆被类型、植被指数和模拟模型的其他输出)来建模[22]。辐射表面温度分解模型(DisTrad)[23] 和热图像锐化模型(TsHARP)[24] 是最早基于植被指数-辐射表面温度关系(基于 VI 的模型)对粗 LST 进行降尺度处理的两个模型。这种关系已在全球和局部尺度上进行了评估[25]。许多基于非线性机器学习的方法被用来捕捉这种关系,如随机森林回归[26]、随机森林区域到点克里金法[27]和高斯滤波法[22]。在植被指数和坡度数据的基础上,利用累积分布函数(CDF)匹配和多分辨率卡尔曼滤波(MKF),对高水平被动微波(PMW)LST 数据进行降尺度处理,以填补 MODIS LST 观测数据的空白,从而生成全天候 LST 数据[28]。除卫星辅助数据外,地表模型还可与 MODIS 和 Landsat LST 集成,生成无间隙 LST,用于昼夜动态研究[29]。然而,基于回归的模型假定 LST 与 LST 预测因子之间的关系是位置不变的,这可能不适用于在区域尺度上应用本地预训练关系。此外,这些模型的性能取决于辅助数据的空间分辨率和准确性。

基于时空融合的模型(STFM)基于地表动态的时空连续性特征,利用时间序列卫星数据捕捉粗像素和细像素在空间和时间上的关系[30]。它们为合并来自多个传感器的数据提供了一种很有前途的方法,而无需考虑计算机视觉领域中大多数基于学习的模型中缩减比例问题的限制。由于两种分辨率的观测数据都是由不同卫星持续更新的,因此融合后的高分辨率时空数据可以捕捉地表的动态变化,如物候和土地覆盖的变化[31-32]。在过去十年中,基于这两个基本概念开发了几种 STFM。首先,基于加权过程对图像进行融合,该过程假定目标时间点处粗像素和细像素之间的残差可通过线性加权函数与之前时间点处可用的粗-细像素对的残差数量进行估算。这些粗-细像素对搜索可以基于给定空间和时间搜索窗口的光谱和时间相似性。因此,这些模型被归类为基于加权的模型,如 STARFM [33-34]、STAARCH [35]、ESTARFM [36] 和 Fit-FC [37]。其次,图像融合是基于一个解混过程,该过程假定粗像素变化信号(通常是时间序列中的变化比率或残差)可以根据几个具有派生覆盖的内成员进行解混,然后通过加权函数将这些内成员添加到精细分辨率图像中。典型的模型包括 MMT [38]、STDFA [39]、ESTDFM [40]、U-STFM [41]、STRUM [42]、OB-STVIUM [43] 和 ISTDFA [44]。在这些模型中,内含物或同质变化区域(HCR)的数量是任何基于解混模型的标准参数之一。近年来,许多模型结合了这两种基本思想(加权和解混),在克服基于加权模型的地表变化建模局限性方面取得了巨大成功。它们适用于捕捉物候和土地覆被等变化。典型模型包括 FSDAF [45]、FSDAF 2.0 [46]、TC-Umixing [47]、RASDF [48] 和 VSDF [49]。

在考虑对陆地表面温度(LST)进行降尺度时,必须认识到陆地表面温度的昼夜动态变化受到不同方位角和天顶角的动态太阳辐射以及风速和地表湿度等因素的影响。这种高度动态的时空特征对传统的基于时空融合的模式提出了三个重大挑战(详细分析见第2.1节)。首先,热信号的混合过程具有非线性。例如,在粗像素中,信号可能由子像素热点或冷点主导,而这些热点或冷点与分数覆盖无关。因此,当前的线性系统可能不适合LST的时空解混[50]。其次,在当前的线性解混系统中,过多的内涵物或分部覆盖率较小的HCR会导致解混函数成为一个假问题,无法提供正确的解。第三,当前的加权函数容易受到噪声的影响,导致由于输入数据的微小误差而对最终 LST的预测不可靠。其根本原因在于理论加权函数对数据噪声的容忍度较低。

针对当前时空融合模型(STFM)的三个局限性,本研究引入了一种增强型 U-STFM模型,该模型结合了深度学习组件,用于陆地表面温度(LST)的非线性降尺度。具体来说,我们加入了两个深度学习组件,即DyNet和RatioNet,以取代原有的解混函数和加权函数。我们选择U-STFM作为基线模型,该模型最初侧重于降尺度MODIS表面反射率[41],后来通过降尺度MODIS海洋叶绿素浓度产品[51]将其应用扩展到预测动态参数。在本研究中,我们在中国深圳对该模型进行了测试和比较,深圳是一个因经济增长而导致土地覆被快速变化的地区。

本研究的主要目标如下:

  1. 开发一个深度学习组件(DyNet),用于在U-STFM框架内对LST进行非线性解混。

  2. 利用深度学习组件(RatioNet)捕获的数据分布,提高加权函数的抗噪能力。

  3. 扩展地表反射率降尺度的原始U-STFM模型,以适应时间变异性更高的传感器,从而能够生成 30 米尺度的日LST产品。

数据源及研究区

研究区域

随着城市化的快速发展,城市热岛效应对城市及周边地区的生态环境产生了重大影响。城市热岛效应是指城市温度高于周边农村地区的现象。造成这种温差的主要原因是人类活动和城市基础设施,如建筑物、人行道和交通系统,它们比自然景观更有效地吸收和保留热量。随着城市继续快速发展和城市化,城市热岛效应变得更加明显。这种现象会导致各种环境和生态后果。例如,它会影响当地气候、空气质量、能源消耗,甚至人类健康。因此,了解和缓解城市热岛效应对于创建可持续发展的宜居城市至关重要,而这在很大程度上依赖于高时空分辨率的地表温度监测数据。

粤港澳大湾区(GBA)是中国正在经历快速城市化的地区。在粤港澳大湾区内,东莞市和深圳市作为主要的城市中心,随着国家经济的快速发展,在土地利用和城市发展方面发生了重大变化。大面积的荒地和林地被改造成城市区域,导致地表温度空间模式的快速变化。

本研究选择了粤港澳大湾区的一部分作为研究区域,面积约为 1843 平方公里(介于东经 113°49′13″- 114°16′10″ 和北纬 22°37′17″-22°59′48″之间),如图 1所示。所选区域地形复杂,土地覆被类型多样,为评估时空融合模型(STFM)处理土地覆被快速变化的能力提供了一个综合场景。

图1研究区域

数据集

与大地遥感卫星 7 号的地表温度产品相比,MODIS Terra的日间地表温度产品被用于从 1000 米降到 30 米。在本研究中,两颗卫星在同一日期的地表温度(LST)的微小差异被视为系统误差,可以忽略不同日期之间巨大的地表温度差异。MODIS LST产品(MOD11A1.006)和Landsat7 ETM + LST 产品(Landsat 7 ETM Plus Collection 2 Level-2)来自USGS Earth Explorer(https://earthexplorer.usgs.gov(2022 年 4 月 12 日访问))。经USGS处理后,ETM + LST 的空间分辨率为30米,重访频率为16天。由于ETM + SLC在2003年5月31日后失效,加上研究区域常年阴雨,本研究选择了2000年9月至2003 年5月期间云量阈值小于1%的数据,收集了8对有效的Landsat7 LST和MODIS LST图像。详情见表 1。

表1研究区域使用的大地遥感卫星 7 LST 和 MODIS LST 产品列表

A screenshot of a data table Description automatically generated

模型方法介绍

原始U-STFM

在本研究中,我们选择U-STFM作为基线模型。U-STFM模型最早是由Huang和Zhang于 2014 年针对地表反射率数据提出的。该模型是一种典型的基于解混的STFM模型,包含线性解混函数和加权函数。关于U-STFM的详细解释可参见原论文[41]。我们在此对U-STFM进行简要介绍。

原始 U-STFM 的问题

在本研究中,我们主要关注与原始 U-STFM 相关的两个关键问题。第一个问题与原始解混函数的线性不稳定性有关,第二个问题与原始加权函数的误差敏感性有关。

解混函数在时空数据融合模型中起着至关重要的作用。最初的解混函数基于线性解混理论,该理论假定粗像素的能量可表示为精细分辨率像素的线性组合,并按其覆盖率分数加权。如图 1 所示,通过线性解混函数,我们可以在 MODIS 层面上分配多个变化率,并利用覆盖分数矩阵来确定 HCR 层面上的时间变化率。当图像数量超过未知值数量时,该函数就可以求解。通常情况下,由于本研究区域的 MODIS 像素数量明显多于 HCR 数量,因此可以满足这一条件。但是,如图 2所示,当 HCR 数量增加时,覆盖率矩阵(红色突出显示)变得稀疏,导致线性系统的不稳定性增加。

A diagram of a graph Description automatically generated

图 2解混函数的局限性。红色区域代表HCR,黑色方块代表MODIS像素。左图中的绿色区域表示HCR跨多个MODIS像素的情况,右图中的绿色区域表示HCR只被一个MODIS像素覆盖的情况,这是使覆盖派系矩阵更加稀疏的结果。

通过将目标日期之前和之后的精细图像与HCR层面的 LST变化率合成,预测出精细分辨率图像。然而,如图 3所示,这种加权函数的问题在于,当包含误差时,LST预测误差会表现出不同的敏感度。更具体地说,在红色区域内,即使是微小的变化也会导致LST预测结果的巨大差异。该区域内的误差容限相对较小。

A picture containing text, line, screenshot, font Description automatically generated

图 3原始加权函数的问题:红色区域代表误差敏感度较高的区域;蓝色区域代表敏感度较低的区域。

非线性 U-STFM

非线性U-STFM继承了U-STFM模型的尺度不变性,是一种基于解混的 STFM模型,假定MODIS和Landsat时间序列中的热信号变化比相同。因此,在尺度不变性假设下,MODIS时间序列中捕获的变化率可应用于Landsat序列。

根据这一想法,我们设计了两个多层感知器(DyNet和RatioNet),在解混和加权过程中形成数据驱动的非线性预测。如图 4所示,预测目标日期的 30 米级陆地表面温度(LST)时,需要将前一日期,目标日期和后续日期的MODIS LST数据组织成三个日期对。随后,可以计算MODIS LST数据集中不同日期之间的LST差值。此外,还可以计算MODIS每个像素的变化率,并将其作为DyNet 模型的输入。DyNet的输出提供了每个HCR的变化率,这反过来又成为RatioNet的输入,从而获得目标日期LST的最终预测结果。

A diagram of a diagram Description automatically generated

图 4非线性 U-STFM 的基本思想

与最初的 U-STFM 不同,非线性 U-STFM 是一种数据驱动模型,使用适当的数据集进行训练。本研究的工作流程如图 5所示。主要分为四个步骤。第 1 步:确定同质变化区域(HCR)。HCR被确定为具有相似LST变化趋势并可共享相似变化率的区域,以便进行下一步工作。利用时间序列高分辨率Landsat数据建立特征空间,以识别HCR,并建立用于训练的数据集。步骤2:训练DyNet 和 RatioNet。这一步的主要任务是训练模型,以捕捉MODIS与子像素HCR之间变化率的非线性关系。训练完成后,非线性U-STFM模型将用于预测基于时间序列MODIS和Landsat数据的更高分辨率LST产品。第四步,我们将非线性模型与原始U-STFM模型以及两种常用降尺度模型STARFM和ESTARFM进行了比较,评估了非线性模型的性能。

A diagram of a training model Description automatically generated

图 5整体技术流程

在统一的太阳辐射和蒸发条件下,相似的地表材料或土地覆被类型随着时间的推移呈现出相似的热模式。表现出相似变化规律的区域被确定为同质变化区域。每个同质变化区域都有相似的变化率,可作为解混过程的指标。在 U-STFM模型中,HCR是由分割过程定义的。考虑到模型的跨时间泛化,我们根据聚类方法定义了HCR。具体来说,我们使用k-means聚类法来定义用于预测的 HCR。本研究对不同数量的类进行了比较。

非线性解混模型(DyNet)

考虑到热信号的辐射效应,UTFM使用的传统线性解混模型并不合适,因为热点(HCR)可能会根据 MODIS信号的温度对其产生更大的影响。HCR与 MODIS信号之间的关系似乎是非线性的。

为了克服解混函数不稳定的问题,我们根据历史数据集引入了动态多层感知器(DyNet)来捕捉这种非线性关系。工作流程如图 6所示。

DyNet的训练数据集是利用Landsat和MODIS LST历史产品计算得出的。DyNet的输入是MODIS LS在三个日期的时间变化率, 分别代表前一个日期、目标日期和后一个日期。DyNet 的输出是 HCR 水平的时间变化率 ,即 30 米水平的平均值。和的计算遵循公式 (2)。

A diagram of a model Description automatically generated

图 6使用 DyNet 训练解混模型的工作流程

DyNet有两个动态层作为输入层和输出层,还有五个隐藏层,每层有 128 个神经元。所有七个层都是全连接的,以捕捉非线性关系。整个结构可解释为与一组 MODIS像素(本研究中为 2000 个)进行解混,其中, 表示由聚类或分割算法定义的 HCR 数量。DyNet的训练过程基于小批量随机梯度下降法。如图 7所示,输入层中的神经元代表用于解决非线性解混问题的 MODIS 像素总数。例如,如果选择 2000 个MODIS像素进行解混,就会有 2000 个神经元。DyNet对输入层的数量没有具体要求,因为这些 MODIS 像素可以覆盖所有同质变化区域(HCR)。为避免潜在的 “姿态不佳问题”,建议使用足够多的 MODIS 像素,以确保覆盖所有HCR。这一数量可作为模型的超参数。我们根据该地区 4000 多个MODIS像素的总数,随机抽取了一半的MODIS像素(2000 个),以确保覆盖所有HCR。输出层中的神经元代表HCR的变化率。由于每个批次只包含特定的MODIS像素和HCR,因此输入层和输出层仅由该特定批次中的MODIS像素和HCR激活。不属于当前批次的神经元会被剔除。因此,输入和输出层在训练过程中会发生动态变化。由于每个批次都给出了部分预测值,因此最终预测值是通过使用每个HCR的中值计算将每个批次的多个预测值组合起来得到的。中值用于减轻离群预测的影响,因为它们对平均值的影响更大。均方误差 (MSE) 被用作训练时的损失函数。在将模型从一个区域应用到另一个区域时,如果各区域采用相同的聚类或分割规则,则模型可以重复使用,无需重新训练。

Diagram Description automatically generated

图 7 DyNet 训练过程

非线性加权模型(RatioNet)

使用真实数据训练的多层感知器模型可以有效捕捉数据分布,并构建一个潜在特征空间,从而根据特征相似性进行准确预测。该模型解决了 U-STFM 原始加权函数中存在的误差敏感性问题。建立稳定的特征空间是训练人工模型的重要前提。然而,原始加权函数根据 ()处 LST 和( ())处 LST 的大小呈现出两种不同的图形。要训练 RatioNet,数据必须经过三个步骤的转换过程,才能将这些发散图转换为稳定的特征空间。更多详情可参见图 8。

A diagram of mathematical equations Description automatically generated

图 8 RatioNet 训练前的数据预处理

RatioNet的结构和训练过程如图 9所示。

A diagram of a training process Description automatically generated

图 9 RatioNet的训练过程

利用非线性 U-STFM 预测每日高分辨率 LST

在预测阶段,从时间序列MODIS LST产品中整理出目标日期的多个三日期对。在每个日期对中,计算MODIS时间变化率 作为DyNet的输入。DyNet将预测 结果作为其输出。然后,根据第 3.3.2 节中提到的数据转换方法,将 转换为作为RatioNet的输入。RatioNet提供了对 的预测,然后根据 计算出精细分辨率下的最终结构LST。根据这一过程,每个三日期对都能提供目标日期的LST预测值。像素级计算的中值提供了最终的LST预测值。预测过程如图 10所示。

A diagram of a product Description automatically generated

图 10非线性 U-STFM 预测工作流程

评估

在本研究中,采用定性和定量评估方法对模式预报地表温度的效果进行了评估。每次预报都使用空间分辨率为 30 米的陆地卫星地表温度数据作为地面实况。在八个日期中共有六个可信日期。每天对不同的三日期组合组进行评估;例如,2001 年 11 月 20 日就有 12 个三日期组合组。通过对比和检查预期的和实际的 LST 图像对可视化的影响,对模型融合进行了定性评估。在定量评估中,使用了峰值信噪比(PSNR)、相关系数(CC)、均方根误差(RMSE)和平均绝对误差(MAE)。PSNR 是全参考图像的图像质量评价指标。CC值的有效范围介于(-1,1)之间;值越接近 1,表明融合结果越好。更好的预测与更高的PSNR 值、更低的RMSE值和MAE值相关。所有定量评价指标均使用scikit-learn模块中的函数计算。

试验结果及讨论

DyNet 和 RatioNet 的训练过程

使用小批量随机梯度下降算法,可以轻松训练DyNet和RatioNet。图 11显示了训练过程中 500 个历时的损失变化。对于DyNet,测试损失值在 100 个历时后趋于平缓,没有出现过拟合的迹象。测试损失高于训练损失,这表明基本解混过程的难度很大。这可能与训练的批量大小有关。DyNet使用两个动态层来预测每个HCR的变化率,因此建议使用较大的批量。每个批次的平均值被计算为损失。批量越大,就会有越多的MODIS像素参与形成解混过程,损失值也就越接近使用整个验证数据集计算出的地面真实损失。RatioNet的损失图是平滑的,表明根据第4.3.2节所述的数据转换改变特征空间后,网络的学习过程更加容易。

图 11训练和测试过程中的损失值变化

云雾遮挡下的 LST 预测

云层效应是 LST 产品噪音的主要来源。云层温度明显低于地面温度。在我们的数据集中,2000 年 11 月 1 日的数据部分被云层覆盖。因此,我们对模型预测包含噪声(本例中为云层)的日期的 LST 性能进行了评估。

图 12显示了使用DyNet模型预测的每个同质变化区域(HCR)的变化率。在预测 2000 年 11 月 1 日的陆地表面温度时,共考虑了六组三个日期的组合。该图展示了DyNet模型在不同目标日期的一致表现,同时保持了统一的参数。值得注意的是,每个HCR的实际变化率范围可以包含任何数字,因为没有特定的范围被定义为基本事实。在预测过程中,整个图像被剪切成 256 × 256 像素的大小,作为模型的输入。每个批次对该特定批次所涵盖的HCR的变化率进行预测。因此,方框图代表了每个HCR的多个预测值,这些预测值的中值被用作最终的变化率。计算均方根误差(RMSE)是为了评估变化率预测值与地面实况值之间的差异。考虑到不同目标日期的变化率存在差异,DyNet模型的总体性能令人满意。A group of graphs showing different sizes and shapes Description automatically generated with medium confidence

图 12 DyNet对各HCR变化率的预测:红色叉号代表地面实况,不同海滩多次预测的中值被用作各HCR变化率的最终预测值

表 2和图 13列出了每个三日期组对 2000年11月1日LST的最终预测结果。预测误差主要有两个原因。首先,它源于DyNet模型预测每个HCR变化率的准确性。例如,在20000914-20001101-20010917 案例中,DyNet预测的均方根误差(RMSE)达到最高值1.579。因此,LST对这一特定日期三元组预测的最终均方根误差达到了3.875。其次,预测误差受基线长度的影响,基线长度表示前一个日期和后一个日期之间的LST差值。如图 3所示,基线长度越小,压缩的数据空间就越接近数值,从而导致RatioNet模型的预测误差越大。例如,考虑 20000914-20001101-20021107 的情况。DyNet 预测的 RMSE 相对较小,为 0.864。但是,该案例的基线长度为 3.015,表 RatioNet的预测不确定性更高。

表 2基于非线性U-STFM(DyNet+RatioNet)对每对日期的 30 米海平面LST预测

A table with numbers and symbols Description automatically generated

在实际的应用过程中,DyNet和RatioNet因基线较短而积累的误差可以通过像素级中值组合得到缓解。图 13显示,1:1中值组合图能有效过滤掉不准确的预测,从而提高准确率。

A group of graphs showing different colored lines Description automatically generated with medium confidence

A graph showing a graph Description automatically generated with medium confidence

图 13用不同的三个日期对预测2000年11月1日LST的 1:1 图(左)和最终组合预测结果(像素级的中值)

如图 14c中红圈所示,2000年11月1日大地遥感卫星观测到的实际陆地表面温度受云层的部分影响。然而,图 14a所示的MODIS数据没有捕捉到这部分云层信号,导致图 14b所示的非线性U-STFM模型预测中没有云层指示。由于云覆盖区域的LST值是根据被云覆盖的相同HCR内的变化率填充的,因此在 1:1 图(图 14d)和 RMSE 图像(图 14d)中也可以观察到云效应的影响。

A screenshot of a computer generated image Description automatically generated

图 14根据多个三重日期组合得出的最终预测结果(2000年11月1日)。(a) 2000 年11月1日的原始MODIS LST;(b)我们的模型预测;(c) Landsat LST;(d)我们的模型预测与Landsat LST之间的1:1图;(e)我们的模型预测与Landsat LST之间的均方根误差图。图15中的(1)-(3)为子区域

为了评估模型检测微妙信号的能力,我们选择了热点和冷点作为参考点。图 15显示,模型成功捕捉到了热点,即区域1和区域2中的红点。此外,模型还准确识别出了区域3冷屋顶上太阳能电池板的存在。

A screenshot of a map Description automatically generated

图 15 局部区域预测情况

土地覆盖变化后的 LST 预测

在3.1.6.2节中,我们主要展示了在目标日期存在云层影响的情况下的预测性能。在本节中,我们将评估模型在目标日期之前出现陆地表面温度变化时的性能。为了模拟这些陆地表面温度变化,我们在本节中使用云层作为陆地覆盖变化的替代物。

2000年11月1日大地遥感卫星观测到的LST有部分云层覆盖。我们假设这些被云层覆盖的区域代表了土地覆被的变化。为了评估这些变化对后续模式预测的影响,我们进行了测试。在本节中,我们将2001年9月17日的LST预测作为目标日期,以研究2000年11月1日的观测结果如何影响2001年9月17日的预测。

图 16显示了2001年9月17日的预测结果。如 RMSE 图(图 16e)所示,模式捕捉到了2000年11月1日发生的LST变化,并反映在 2001 年9月17日的预测结果中。如果去掉2000年11月1日的数据,预测结果没有任何变化(图 17)。当我们从时间序列中删除 2000 年 11 月 1 日的数据时,均方根误差要大得多。这是因为就 2001年 9月17日的预测而言,如果去掉2000年 11 月1日的数据,就去掉了最终中位值组合中50%的日期三胞胎,这也增加了模型的不确定性。

A collage of images of different types of landrats Description automatically generated

图 16 2001年9月17日的预测。(a)原始MODIS LST;(b)我们的模型预测;(c)Landsat LST;(d)我们的模型预测和Landsat LST之间的 1:1 图;(e)我们的模型预测和Landsat LST之间的均方根误差图

A screenshot of a computer screen Description automatically generated

图 17 有无2000年11月 1日数据的 2001年9月17日预测对比。红圈标出部分为云层干扰部分

多日期预测的模型通用性

还对模型在不同时间段的通用能力进行了评估。最初的 U-STFM 方法是为每个目标日期开发单独的解混模型,与此不同,非线性U-STFM采用了一致的解混模型,与日期无关。图 18展示了多个日期预测的1:1图。这六天LST预测的总体均方根误差(RMSE)保持在2.1 k以下,表明统一解混模型(DyNet)和加权模型(RatioNet)在不同日期的成功泛化。

A group of graphs showing different colors Description automatically generated with medium confidence

图 18 多日期预测的 1:1 图

不同 HCR 水平下模型的性能

如前所述,非线性 U-STFM 模型面临的挑战之一是线性解混函数在处理大量 HCR 时的局限性。为了评估该模型在不同 HCR 水平(HCR-45、HCR-145 和 HCR-245)下的性能,我们将其与使用线性解混函数的原始 U-STFM 进行了比较。

图 19和图 20分别显示了2000年11月1日和2001年9月17日的模型比较结果。1:1 图说明了 U-STFM和非线性 U-STFM 模型的中值组合结果。方框图显示了三个不同数据三元组的均方根误差 (RMSE) 值范围。

在 2000 年 11 月 1 日(图 19),当使用非线性 U-STFM 模型时,随着 HCR 数量的增加,RMSE 方框图明显下降。然而,原始 U-STFM 模型并没有出现类似的下降。

同样,对于 2001 年 9 月 17 日,均方根误差也随着 HCR 数量的增加而减小。然而,原来的 U-STFM 模型显示出估算不足,均方根误差很高。

A graph of different colored lines Description automatically generated with medium confidence

图 19 2000 年 11 月 1 日在多个 HCR 设置下与U-STFM的比较;(a) 45 HCRs 组的结果;(b) 145 HCRs组的结果;(c) 245 HCRs组的结果;(d) 45、145和245 HCRs组的RMSE方框图

A graph of a diagram Description automatically generated with medium confidence

图 20 2001年9月17日与U-STFM在多HCR设置下的比较。(a) 45 HCRs组的结果;(b) 145 HCRs 组的结果;(c) 245 HCRs组的结果;(d) 45、145和245 HCRs组的均方根误差方框图

RatioNet 性能

RatioNet 的目标是利用数据分布和样本相似性来减轻噪声效应,而不是依赖理论加权方程。为了评估RatioNet的性能,我们引入了高斯随机噪声,以降低DyNet预测的信噪比 (SNR),特别是每个HCR的变化率预测。我们对两种设置进行了比较:一种是使用带有理论加权方程的DyNet模型,另一种是使用带有RatioNet的DyNet。

1:1 图表示两个模型的中值组合结果。在 SNR50 和 SNR30 的情况下,RatioNet 的优势并不特别明显,因为中值组合本身就能起到噪声滤波器的作用,即使在低噪声水平下也能提高预测精度。然而,随着 SNR 进一步降低,包含 RatioNet 的模型表现出更优越的性能(图 21)。

A graph of different colored lines Description automatically generated with medium confidence

图 21 2000 年 11 月 1 日使用不同信噪比进行的预测

方框图说明了 RatioNet 在没有中值组合过程时的性能。它清楚地表明,RatioNet 可以大大降低每个日期三重预测的均方根误差 (RMSE),尤其是在信噪比较低时(图 22)。

A group of blue and orange boxes Description automatically generated

图 22不同信噪比的预测方框图

与 STARFM、ESTARFM 和原始 U-STFM 比较

与 STARFM、ESTARFM 和原始 U-STFM 相比,非线性 U-STFM 性能更优,表现出更高的峰值信噪比 (PNSR) 值和更低的均方根误差 (RMSE) 值。详细结果见表 3。图 23 所示的均方根误差图显示,没有任何特定土地覆被类型的均方根误差值明显更高。这表明该模型并没有偏向特定的土地覆被类型。此外,图 23还表明,非线性 U-STFM 有能力自动填补因目标日期 MODIS 数据缺失而造成的云差距。这是通过采用聚类算法定义 HCR 实现的。此外,还可利用属于同一 HCR 类别的其他 MODIS 像素来估算云区下的变化率。

表 3非线性 U-STFM 与 STARFM、ESTARFM 和原始 U-STFM 的比较,粗体值代表每组中表现最好的模型

A table with numbers and text Description automatically generated

2001年9月17日STARFM、ESTARFM和U-STFM的RMSE值差异很大,这可能是由于2000年11月1日的云层效应造成的。由于用于预测 2001年9 月17日的三个日期对中有一半包含2000年11月1日的图像,这对 STARFM、ESTARFM 和 U-STFM 的加权函数影响很大。另一个影响因素可能是每个模型所使用的处理单元。STARFM 和 ESTARFM 在像素级别上运行,考虑周围的相似像素。相比之下,UTFM 采用的是由分割算法定义的更大处理单元,从而产生局部区域。非线性 U-STFM 的处理单元最大,由集群定义,有助于减少预测的不确定性。

A collage of images of different colors Description automatically generated
A collage of images of snow Description automatically generated
A collage of images of blue and white spots Description automatically generated 图 23与 STARFM、ESTARFM 和 U-STFM 预测 RMSE 的比较

讨论

HCR 和像素级变化率之间的截断误差

U-STFM 的基本要素是变化率,理想情况下,它应能准确预测象素级的变化率。这样就可以根据目标日期前后的陆地表面温度值,精确预测该日期的高分辨率陆地表面温度(LST)。然而,由于问题的不确定性,预测像素级的变化率本身就具有挑战性。未知的 30 米空间分辨率 Landsat 像素数量始终大于已知的 MODIS 像素数量。为了应对这一挑战,采用了内元提取方法来减少未知数的数量。通过将待确定的内含物数量减少到低于已知 MODIS 像素数量,就可以利用解混函数预测每个内含物的值。在 U-STFM 模型中,这些内含物被称为光谱解混的高变化率(HCR)内含物。不过,需要注意的是,每个 HCR 的变化率并不一定与该 HCR 中像素的变化率一致。因此,这些不同层次的分析之间存在截断误差。

图 24显示了在高变化率 (HCR) 和像素水平上观察到的变化率之间的截断误差。平均值接近于零且差异范围较小的窄分布表明,HCR 中的预测变化率可以有效代表该 HCR 中大多数像素的变化率。理想情况下,分布的平均值为零,差值范围为零,表明 HCR 的变化率预测值与这些 HCR 中像素的实际变化率完全相同。

观察图 24,我们可以发现,不同日期对(不同行)和不同数量 HCR(不同列)的截断误差均值始终接近于零。这表明 DyNet 模型对 HCR 变化率的预测是无偏的。此外,在比较不同的 HCR 数量(如 HCR-45、HCR-145 和 HCR-245)时,我们发现分布的平均值随着 HCR 数量的增加而降低。这表明,较小的 HCR 能更准确地反映像素级的实际变化率。因此,为了进一步减少截断误差,未来的研究可能需要一种更精确的末级成员提取方法。

A screenshot of a graph Description automatically generated

图 24 HCR 级变化率与像素级变化率之间的截断误差

基线长度效应

加权函数预测的不确定性受到一个因素的影响,即和的陆地表面温度之间的相似性。 在本研究中,我们采用干涉合成孔径雷达(InSAR)领域使用的定义,将这种相似性称为“基线长度”。基线长度越短,加权函数的不确定性越大。图 25显示,基线长度越短,加权函数图越接近渐进线。

A diagram of a graph Description automatically generated with medium confidence

图 25 加权函数的理论图

在像素级,当考虑到的情况时,如果变化率(α) 小于-1,即使α 的微小变化也会导致 LST 预测的显著变化。因此,在这种情况下,变化率对 LST 的预测就变得不可靠了。

对 20000914-20001101-20021107 年期间的预测就是基线长度较短所造成影响的一个实际例子。表 2和图 13用不同的三个日期对预测2000年11月1日LST的 1:1 图(左)和最终组合预测结果(像素级的中值)显示,20000914 年和 20021107 年的 LST 平均基线长度为 3.015,标准偏差为 1.660。这表明这两个日期的 LST 相似度很高。在这种特殊情况下,尽管 DyNet 模型的预测误差仅为 0.864(如图 12所示),但加权函数未能提供准确的预测结果(均方根误差:3.937)。基线长度较短的问题主要源于 U-STFM 所选加权函数的理论限制。正如前面所分析的,要想获得更高的 LST 预测精度,选择基线长度较长的分歧 LST 对至关重要。

因此,在本研究中,我们发现前日期和后日期之间的时间范围往往超过一年。这可能是由于云层覆盖和权重函数的固有局限性等因素造成的。如果前 LST 值和后 LST 值之间的时间范围较小,则每个像素获得相似 LST 值的可能性较高。在这种情况下,最终预测结果的不确定性可能会增加。因此,该模型不适合在前后观测日期范围过于接近的情况下进行预测,因为它可能会导致小基线问题。

结论

陆地表面温度(LST)在各种地理物理过程模拟模型中起着至关重要的作用。近年来,将来自多个卫星平台的高空间分辨率和时间分辨率 LST 数据结合起来的方法受到了广泛关注。为实现这一目标,时空图像融合模型已成为一种有前途的降尺度方法。以往的研究已经证明了基于解混的融合模型(如 U-STFM)通过从时间序列数据中提取特征来捕捉土地覆被变化的有效性。这些模型在降尺度陆地表面反射率和海洋颜色产品等应用中取得了显著成功。然而,在提高原始线性解混函数和小解混内含物理论加权函数的准确性方面仍然存在挑战,特别是在处理 LST 快速变化和降尺度过程中的抗噪声能力时。

为了应对这些挑战,我们引入了一种名为非线性 U-STFM 的 U-STFM 升级版本,其中包含一个深度学习模型。原有的解混频和加权函数被两个深度学习组件所取代: DyNet 和 RatioNet。采用了动态层和特征空间转换技术,即使在数据集相对较小的情况下,也能促进这些网络的训练。

在研究中,我们选择了粤港澳大湾区的一部分作为研究区域,面积约为 1843 平方公里。利用 Landsat-7 和 Landsat LST 30 m 产品将 MODIS 每日数据的分辨率从 1000 m 降到 30 m。

训练过程结束后,结果表明,统一解混网络(DyNet)能有效解混不同目标时间的 MODIS 像素,并随着高变化率(HCR)内含物数量的增加而降低均方根误差(RMSE)新的加权网络(RatioNet)成功地降低了解混过程中存在噪声时的均方根误差。与理论加权函数相比,RatioNet 加入了更多来自真实数据分布和样本相似性的特征,从而增强了模型的鲁棒性。我们还评估了非线性 U-STFM 在受云层影响的日期和 LST 变化方面的整体性能。在对照实验中,新模型的表现优于 STARFM、ESTARFM 和原始 U-STFM 等经典方法,获得了最高的准确率。

与大多数将特征提取和建模作为黑盒子结合起来的端到端深度学习网络不同,本研究中开发的模型将网络与原始的 STFM 模型集成在一起,从而便于解释。此外,预训练网络可以提高预测速度,使其适用于在线实时应用。为了拓展这项研究,使用来自多个地区的不同数据源训练新开发的模型并随后评估其在全球范围内的泛化能力将大有裨益。