引言
高空间分辨率高光谱图像(LrHSI)通常包含众多光谱波段。由于成像传感器固有的限制,LrHSI 往往由于空间分辨率有限,可能导致图像元素混合和边界模糊等挑战。这些限制显著限制了 LrHSI 的潜在应用和光谱优势。相比之下,高空间分辨率多光谱图像(HrMSIs)具有独特的纹理特征,但可能缺乏独特的光谱特征。仅基于有限的通道信息区分复杂特征具有挑战性。因此,获取高空间分辨率高光谱图像(HrHSIs)对于遥感领域的各种应用,如分类、目标检测等,具有重大研究意义。目前,更普遍的研究方法是通过融合具有相同覆盖范围的 HrMSI 和 LrHSI 来获取 HrHSI。相关方法可以分为传统方法和基于深度学习的融合方法。
传统方法可以分为以下几类,包括基于全锐化扩展的方法 [14] , [15] , [16] ,基于贝叶斯的方法 [17] , [18] , [19] ,基于矩阵分解的方法 [20] , [21] , [22] ,以及基于张量表示的方法 [23] , [24] , [25] 。
HrMSI 和 LrHSI 融合方法基于全色增强扩展,遵循 HrMSI 和全色(PAN)融合的原则。Aiazzi 等人将 LrHSI 和 HrMSI 融合问题分解为类似于 PAN 和 HrMSI 融合的几个子问题。每个子问题是将 HrMSI 的单个波段与 LrHSI 的多个波段进行融合。Vivone 等人提供了全色增强扩展方法的详细介绍和比较。此类方法计算效率高,但难以同时确保空间纹理信息和光谱重建达到更好的结果。特别是在要融合的图像空间分辨率差异较大时,为了恢复空间信息,会导致光谱失真。
关于基于贝叶斯的方法,它们通过通常将先验规律性纳入观测模型并利用后验概率来估计目标图像。这种方法提高了估计的准确性和鲁棒性。显然,这种方法过度依赖于先验信息的准确性,这限制了模型的发展。
矩阵分解方法主要涉及主成分分析(PCA)和非负矩阵分解(NMF)。这些方法通过将 LrHSI 和 HrMSI 分解为低秩和稀疏矩阵来实现融合。这些方法的一个优点是它们具有更好的性能。然而,它们的性能取决于参数选择,并且计算成本较高。
张量表示方法主要分为两种,即 Tucker 分解和典型多面体(CP)分解。这些方法将 LrHSI 和 HrMSI 表示为核张量与因子矩阵的乘积。融合结果是通过结合这些分解结果获得的。这些方法的一个优点是能够捕捉 LrHSI 和 HrMSI 之间的非线性关系。因此,它们适用于复杂数据。然而,缺点是计算复杂度高,需要大量计算资源。
近年来,深度学习因其强大的特征提取能力在 LrHSI 和 HrMSI 融合领域得到广泛应用。此类方法可具体分为监督学习和无监督学习。Zhao 等人提出了一种创新的 GAN 框架,采用两阶段对抗训练策略和空间光谱注意力块来解决融合任务。为了应对多源图像融合的挑战,Cao 等人提出了一种创新的监督扩散模型,具有粗粒度风格调制和细粒度小波调制,在融合基准测试中表现出优异的性能。监督方法需要 HrHSI 作为训练样本,而在实际情况下并不存在。因此,在实际应用中存在困难。因此,无监督方法已成为当前研究的热点。Zheng 等人提出了基于无监督深度学习的融合方法 HyCoNet,可以在没有先验信息(如点扩散函数(PSF)和光谱响应函数(SRF))的情况下解决 LrHSI 和 HrMSI 融合中的问题。Zhan 等人 [35] 提出了一种新的跨尺度倍频网络,结合了 LrHSI 和 HrMSI 融合方法,能够通过渐进式图像融合结构提取多尺度空间信息。
近年来,基于光谱-空间下采样概念的融合方法在转化为光谱映射问题时展现出有前景的性能。Han 等人 [36] 首次提出了光谱-空间下采样概念,该概念在已知点扩散函数(PSF)和空间分辨率函数(SRF)的假设下,将融合任务转化为光谱映射问题。Chen 等人 [37] 进一步设计了无监督融合模型,以学习 LrMSI 和 LrHSI 在像素级别的光谱映射关系。Li 等人 [38] 设计了多个深度学习模块,以在退化过程中自适应地学习 PSF 和 SRF。
然而,一方面,基于光谱空间退化方法的方法往往在退化过程中具有过于理想化的模型设计,忽略了待融合数据之间的辐射差异。受限于成像时间、大气条件、成像设备和图像预处理,实际输入到融合过程中的 LrHSI 和 HrMSI 往往表现出辐射差异。
另一方面,大多数当前的未监督深度融合模型仅在模拟数据集上执行,缺乏对真实数据集的验证。此外,在实际情况下,融合结果的验证图像不易获得,因此迫切需要设计不需要验证图像的评估指标。同时,融合的目的是结合有利信息,在特定应用中做出更好的决策。应用相关的指标可以用来评估融合结果的表现,例如分类和目标检测。以分类为例,如果融合结果比输入的 HrMSI 提高了分类结果,这间接证明了融合的重要性。如果通过提出的方法获得的 HrHSI 的分类精度优于其他融合方法,这证明了提出方法的有效性。
基于上述问题,本文提出了一种无监督深度光谱-空间协同约束融合模型(UDS 2 C 2 )。本文的主要贡献如下。
三维动态卷积,SCFConv,旨在通过计算注意力因子来增强卷积神经网络(CNNs)的特征提取能力。
考虑到 LrHSI 与 HrMSI 之间的辐射差异,该小组设计了基于卷积增强(GCE)模块以提升退化性能。
由于缺乏真实数据的验证图像,我们通过分类准确率评估融合性能,引入了一种面向用户的质量度量方法。
本文剩余部分组织如下。 Section II 介绍了动态卷积的相关工作。 Section III 描述了当前频谱-空间下采样模型的设计思想和局限性。 Section IV 详细描述了提出的方法。鉴于当前研究的不足,开发了一个 UDS 2 C 2 融合模型。在 Section V 中,通过详细评估展示了所提出模型的表现。实验数据包括仿真数据和 ZY-1(02D)真实机载数据。 Section VI 总结了本文的整体贡献。
相关研究
A. 动态卷积
单静态卷积是传统 CNN 中常用的一种卷积操作,具有固定的卷积核,其主要优点是简单高效。然而,固定卷积的设计限制了模型的表达能力。
不同于传统的单静态卷积,动态卷积使用一组卷积核,并根据输入数据的特征动态调整每个核的权重。这是通过引入注意力机制实现的,该机制增强了模型提取和表达特征的能力。在处理不同类型的数据时,自适应权重分配提高了模型的准确性。Yang 等人 [39] 和 Chen 等人 [40] 根据 CondConv 和 DyConv 中提出的修改后的 SE 结构计算卷积核的注意力权重。例如,CondConv 使用 sigmoid 函数作为激活函数来计算注意力权重,而 DyConv 使用 softmax 函数。
B. ODConv
然而,上述动态卷积方法存在一些局限性。首先,注意力机制仅设计为考虑卷积核数量的维度,而忽略了卷积核的其他三维(空间大小、输入通道数和输出通道数)。这限制了动态卷积充分捕捉丰富上下文信息的能力。此外,将动态卷积应用于多个卷积层显著增加了模型的参数数量。
为了解决这些问题,Li 等人提出了一种新的动态卷积设计方法,称为全维动态卷积(ODConv)。ODConv 利用一种新颖的多维注意力机制,在卷积核空间的 4 维中学习四种类型的注意力权重。实验表明,这四种类型的注意力权重相互补充。逐步将这些四种类型的注意力权重应用于相应的卷积核,可以显著增强卷积操作的特征提取能力和模型。
ODConv 可以用作插件式设计,以替换许多 CNN 架构中发现的常规卷积层。与现有的动态卷积设计相比,ODConv 实现了更好的性能。此外,ODConv 在预训练分类模型上的性能提升也可以很好地迁移到下游任务,如目标检测,这验证了其良好的泛化能力。
问题表述
LrHSI
学习基于光谱-空间下采样模型生成 LrMSI 的光谱上采样模块(如图 Fig. 1 所示)的主要原则,以及利用 LrMSI 与目标 LrHSI 共同学习光谱上采样模块的方法如下。
假设 LrHSI X 和 HrMSI Y 是通过从 HrHSI Z 进行空间降采样和光谱降采样过程获得的。其中,
通过将相同的频谱下采样操作 S 应用于 LrHSI X 以获得 LrMSI

同样,通过将相同的空间下采样操作 P 应用于 HrMSI Y 以获得 LrMSI

由于两个 LrMSI 都是通过相同的空间和光谱降采样过程从相同的 HrHSI Z 获得的,因此它们是相同的。具体的推导过程如下:

从 (2) 和 (5) 可以看出,LrMSI L 1 和 HrMSI Y 分别通过相同的频谱下采样操作 S 从 LrHSI X 和 LrMSI Z 获得。因此,从 LrMSI L 1 和 LrHSI X 学习到的频谱上采样模型以及将 HrMSI Y 上采样到 HrHSI Z 的过程是相同的。
然而,现有的光谱-空间降采样模型在应用过程中效果有限。因为它们忽略了真实数据的多样性和复杂性。为此,我们增强了该模型,所提出的模型结构如下。
建议方法
本文提出的模型,如图 Fig. 2 所示,是一种 UDS 2 C 2 融合模型。它结合了一组 LrHSI 和 HrMSI 的信息以获得 HrHSI。其中,输入图像具有相同的覆盖区域。使用增强的频谱-空间下采样模型通过频谱和空间两方面的协同约束将这组图像降级为 LrMSI。然后,在训练阶段,通过生成的 LrMSI 和原始输入 LrHSI 自适应地学习频谱上采样模块。此上采样模块应用于原始输入 HrMSI 以获得融合结果。
为了进一步提高融合结果的准确性,本文采用两阶段训练模型。第一阶段使用较大的学习率和更多的训练次数以获得初步融合结果。第二阶段使用较小的学习率和较少的训练周期以获得更准确的融合结果。
该模型在 LrHSI 和 HrMSI 融合中通常具有较高的准确性和稳定性,可广泛应用于实际应用中。
A. 增强型光谱-空间下采样模型
该模型以 LrHSI
首先,HrMSI Y 经过空间下采样模块,该模块的物理意义是学习点扩散函数。该模块主要由
为了减少待融合图像之间的辐射差异,本文在空间下采样模块中添加了 GCE 模块。GCE 模块的一些卷积核是 SCFConv,并采用分组卷积,分组参数 group 设置为
GCE 模块主要由三层组成,每层的输入通道、输出通道和组参数分别用
利用动态 CNN 强大的特征提取能力,我们可以得到 LrMSI

在另一方面,LrHSI X 经过光谱下采样模块。该模块的物理意义是学习 SRF。该模块主要由许多
在经过光谱下采样模块后获得的 LrMSI

上述为本文提出的增强型光谱-空间下采样模型的结构,采用

B. 频谱上采样
基于增强的时频降采样模型,获得了一组更精确的 LrMSI Y
在此阶段,LrMSI
Y

所提出的方法是一种基于待融合数据集的无监督深度学习融合模型。它分为两个阶段进行训练,采用不同的学习率和学习轮次。该方法自适应地学习增强的频谱-空间下采样模型和针对该数据集的频谱上采样模块。最后,将频谱上采样模块应用于 HrMSI

C. SCFConv
本文提出了一种基于 ODConv 的动态卷积核,称为 SCFConv。它采用 3D 注意力机制和并行策略。能够在核空间中学习卷积核在空间维度、通道维度和滤波器维度的互补注意力。在本文中,我们重新组织了动态卷积的结构,以实现多 GPU 上的训练。
一个常规卷积层仅由单个卷积核组成,用于从输入中提取特征。对于动态卷积,需要使用多个卷积核的线性组合。这些核通过注意力机制动态加权,使得卷积操作依赖于输入。动态卷积的定义可以表述如下:

ODConv 使用与 SE 在注意力函数
我们通过使用类似于 ODConv 的分割头注意力结构来改进普通卷积核。用于计算 3-D 注意力因子
输入特征
对于轻量级网络模型,当其深度无法扩展时,可以通过替换现有的卷积操作为 SCFConv 来提升其性能。
实验结果
首先,本节描述了实验中使用的设备配置,包括硬件和软件环境的详细描述。其次,介绍了本文中使用的仿真数据集以及该团队处理和生成的真实机载数据集。最后,在相同的评估指标下,比较了提出的方法和当前最先进的方法。通过这些比较,证明了本文提出的融合模型在 LrHSI 和 HrMSI 融合方面显著优于其他方法。
A. 实验设置
1) 实施细节:
所提出的融合方法在 PyTorch 1.10.1 和 Python 3.7.11 上实现。梯度下降算法使用 Adam 进行训练。在第一阶段,学习率和训练轮数分别设置为 0.001 和 30,000。在第二阶段,学习率和训练轮数分别设置为 0.00006 和 1,000。训练环境中的处理器为第 11 代 Intel Core i7-11700,显示适配器为 NVIDIA GeForce RTX 3060。
2) 数据集:
为了验证所提模型的一般化,实验不仅在对 Ht18 模拟数据集上执行,还针对 ZY-1(02D)的两个视角的实际机载数据集进行。这样做是为了展示所提方法的有效性和优势。我们团队为面向分类应用验证生产了相应的高空间分辨率地面真实参考图像。
a) Ht18:
本文的模拟实验基于 Houston2018 数据集,该数据集包含 48 个波段,覆盖 380 至 1050 nm 的波长范围,具有 1 m 的高空间分辨率。考虑到原始数据的大空间范围,本文使用大小为
为了进行实验,本文使用 Worldview 2 的 SRF 对 Ht18 进行光谱降采样,获得一个维度为(240,240,8)的 HrMSI。同时,应用高斯滤波并进行空间降采样操作。得到的低空间分辨率 LrHSI 维度为(48,48,46)。数据集如图 Fig. 5 所示。
b) ZY-1(02D)
ZY-1(02D)卫星是中国的一颗遥感卫星,于 2019 年 12 月 7 日成功发射。该卫星携带高光谱载荷和多光谱载荷,能够在同一场景下获取高光谱和多光谱图像。高光谱载荷主要由一颗地球同步高光谱成像仪组成,能够获取高分辨率连续光谱遥感数据。该载荷可在 400 nm 至 2500 m 的波段范围内执行 LrHSI,包括 76 个可见光和红外波段以及 90 个短波红外波段,共计 166 个波段,空间分辨率为 30 m,宽度为 60 km。多光谱载荷主要由一个三条线阵列的多光谱相机组成,覆盖从 452 nm 至 1047 nm 的八个波段,与高光谱分辨率相比,具有更高的空间分辨率(10 m)和 115 km 的宽度。
对 ZY-1(02D)的两组原始数据进行了预处理,包括辐射定标、大气校正、对齐和裁剪。获得了两组数据,分别为辽宁-01(简称 LN01)和辽宁-02(简称 LN02),用于融合实验。我们还获得了相应的分类地面真值(10 米)(可在 https://drive.google.com/drive/folders/1JLCCB6ld5R49HDLN5SsMISx1d0fuqRjO 获取)。
LN01:如图 Fig. 6 所示,该区域位于辽宁省大连市金普新区西北部,坐标为
LN01 和 LN02 数据集及相应的 10 米空间分辨率 GT。(a)LN01 高分辨率多光谱成像仪,(b)LN01 低分辨率高光谱成像仪,(c)LN01 10 米地面真值,(d)LN02 高分辨率多光谱成像仪,(e)LN02 低分辨率高光谱成像仪,和(f)LN02 10 米地面真值。
LN02:如图 Fig. 6 所示,该区域位于辽宁省盘锦市辽河入海口湿地,坐标为
B. 比较方法
为了评估所提方法的有效性,本文选取了最先进的方法进行对比,使用相同的数据集。对比方法包括传统方法如 GSA [26] 、FUSE [42] 、CNMF [20] 和 IR-TenSR [43] 。近年来还发展了基于无监督深度学习的融合方法,如 SURE [44] 、SURE-ERGAS [45] 、UDALN [38] 、UMC2FF [46] 和 M2U-Net [47] 。同时,为了展示 GCE 模块在所提融合模型中的作用,本文在实验消融比较中从模型中移除了 GCE 模块。
C. 模拟数据的质量指标
为了全面比较不同融合方法的表现,本文采用六个指标来评估融合结果。这些指标包括光谱角映射器(SAM)、峰值信噪比(PSNR)、合成相对无量纲全局误差(ERGAS)、
A 和 B 分别代表融合结果和参考图像,SAM 度量通常用于衡量融合结果的光谱与参考图像光谱之间的相似度,定义为

均方根误差(RMSE)是一个相对常见的评估指标,定义为

PSNR 用于评估融合图像的质量以及原始信息的保留程度,计算方法如下:

ERGAS 主要考虑融合图像的空间分辨率和光谱保真度之间的权衡,其计算如下:

SSIM 比较图像的结构、亮度和对比度等特征之间的相似性。它可以有效地评估融合图像与参考图像之间的差异程度。这是通过以下公式计算的:


UIQI 可以被定义为

UIQI 测量单色图像的相关性、亮度失真和对比度失真,而

D. 真实数据的质量指标
对于实际在船数据,本文采用了一种面向应用的分类评估。具体来说,分类结果的评估指标是总体准确率(OA)和类别特定准确率(CA);其中,OA 是分类器对所有类别的准确率,计算为正确分类样本数与总样本数的比率,具体公式如下:

CA 表示每个类别正确分类的准确性,具体可以表示为

E. 模拟数据结果
由于模拟数据中存在参考图像,本文首先通过计算融合结果与 Ht18 验证结果之间的指标来比较融合方法。在 Ht18 数据集上,经典传统方法和最先进的无监督深度学习融合方法的评估指标结果在 Table I 中展示。其中,最佳结果被加粗以表明本文提出的模型在几乎所有指标上均取得了优异的结果。其中,Ours
此外,本文使用相同的评估指标来评估增强的频谱-空间下采样模型。由于模拟数据的输入图像是人为退化的,LrMSI 的参考图像也可以以相同的方式进行进一步的人为退化。然后,该参考图像被用作验证来评估频谱-空间下采样模型的表现。具体的定量比较显示在 Table II 。我们的
为了提供可视化和定性的比较, Fig. 7 展示了在 Ht18 数据集上通过不同融合方法获得的融合结果的地面真实(GT)和真彩色图像。第一行和第三行分别显示了 GT 和真彩色图像,而第二行和第四行分别显示了每个结果的 GT 和残差图。很明显,本文提出的方法与 GT 残差图非常接近,证明了空间和光谱细节的最佳恢复以及良好的融合性能。
First and third rows show the true color fusion results of the Ht18 dataset under different methods. The second and fourth rows show the residuals corresponding to each fusion result. (a) GT, (b) GSA, (c) FUSE, (d) CNMF, (e) SURE, (f) IR-TenSR, (g) SURE-ERGAS, (h) UDALN, (i) UMC2FF, (j) M2U-Net, (k) UDS2-C
F. Results on the Real Data
Figs. 8 and 9 show the results of the HrHSI obtained using the fusion proposed method for LN01 and LN02, respectively. The fusion results are basically the same color as the input data, indicating that no spectral distortion occurs in the results. The spatial texture features also maintain a good effect. In order to evaluate the model’s performance more intuitively, we compared the spectra of typical features in the fusion results of LN01 and LN02 with their corresponding LrHSI. The line graph shows that the spectral curves of the features in the two images are largely similar, suggesting that the proposed method achieves a better spectral reconstruction effect.
LN01 fusion results and spectral comparison with LrHSI. (a) LN01 fusion result (HrHSI), (b) LN01 LrHSI typic feature spectra, and (c) LN01 HrHSI typic feature spectra.
LN02 fusion results and spectral comparison with LrHSI. (a) LN02 fusion result (HrHSI), (b) LN02 LrHSI typic feature spectra, and (c) LN02 HrHSI typic feature spectra.
In order to quantitatively evaluate the performance of different fusion methods on real data, this article applies the traditional method FUSE and the unsupervised methods UDALN and UDS2C2 to the real data LN01 and LN02 to obtain the corresponding fusion results. In this article, the two sets of real data and their fusion results are compared and analyzed using the deep learning-based classification method 3DCNN [50] and the traditional classification method random forest [51], respectively. In addition, the reference classification GT for LrHSI is obtained by downsampling the high spatial resolution GT.
根据 LN01 和 LN02 数据集样本大小的特点,分别选取了 LN01 相关数据和 LN02 相关数据的 5%和 0.5%作为实验的训练样本。最终,得到整个图的对应分类结果图和分类准确率,如图 Figs. 10 和 11 ,以及 Tables III 和 IV 所示。
10-和 30 米空间分辨率 LN01 GT,LN01 融合 HrHSI、LrHSI 和 HrMSI 在 3DCNN 下的分类结果。(a)HrMSI(88.68%),(b)HrHSI(FUSE)(92.69%),(c)HrHSI(UDALN)(93.13%),(d)HrHSI(UDS 2 C 2 )(93.72%),(e)LrHSI(89.78%),(f)类别信息。
10-和 30 米空间分辨率 LN02 GT,LN02 融合 HrHSI、LrHSI 和 HrMSI 在随机森林下的分类结果。(a)HrMSI(96.27%),(b)HrHSI(FUSE)(96.71%),(c)HrHSI(UDALN)(96.91%),(d)HrHSI(UDS 2 C 2 )(97.56%),(e)LrHSI(96.37%),(f)类别信息。
对于 LN01 数据集,以下条件成立。
LN01 LrHSI 和 HrMSI 实现了令人满意的分类性能,证明了我们团队产生的数据集和 GT 的可行性。
然而,LrHSI 的分类结果图由于空间分辨率低而模糊,而 HrMSI 的分类精度由于光谱信息不足而低于其他融合结果。
通过比较不同的融合结果,所提出的方法在整体准确率上取得了优势,尤其是在荒草、高速公路、铁路和山地植被等类别上,这证明了该方法在真实数据上的有效性。
对于 LN02 数据集,与 LN01 数据集的分类结果相似,所提出的方法在整体准确率上具有优势,尤其是在辽河、芦苇、稻田和芦苇塘等类别上。此外,如图 Fig. 11 所示,对每个分类图的局部放大显示,UDS 2 C 2 (HrHSI)的分类结果与实际特征分布更为一致。
结论
本文提出了一种用于高光谱图像融合任务的 UDS 2 C 2 模型。该方法的主要贡献是通过引入注意力机制设计了一个 3-D 动态卷积核,从而提高了模型的整体特征提取能力。此外,还设计了四个模块用于融合任务,并设计了消融实验以证明分组卷积增强(GCE)模块的作用。GCE 模块通过减少图像间的辐射差异,显著提高了退化性能。最后,由于缺乏真实数据的评估方法,本文设计了针对分类应用的融合方法评估实验。该方法在模拟数据和真实数据上均取得了优异的性能,证明了所提出方法的泛化能力。