一种基于超像素和统计提取的多源土地覆盖产品融合方法,用于增强分辨率和提高准确性
齐金
,二七
和徐青张
1 吉林大学地球探测科学与技术学院,中国长春 130026; jinqi19@mails.jlu.edu.cn (Q.J.); zxq@jlu.edu.cn (X.Z.) 2 土地表面格局与模拟重点实验室,地理科学与自然研究所 中国科学院资源研究,北京 100101,中国 * 通讯:xueq@igsnrr.ac.cn
学术编辑:Onisimo Mutanga 和 Lalit Kumar
收到:2022 年 1 月 31 日 接受日期:2022 年 3 月 19 日 发布于:2022 年 3 月 31 日 出版商声明:MDPI 对已发布地图和机构隶属关系中的管辖权声明保持中立。
摘要
现有土地覆盖数据的差异性相对较高,表明当地精度低且应用受限。多源数据融合是解决这一问题的有效方法;然而,融合过程通常需要重新采样以统一空间分辨率,导致空间分辨率降低。为解决这一问题,本研究提出了一种多源产品融合映射方法,包括对训练样本进行滤波和在细分辨率上进行产品校正。基于超像素算法、主成分分析(PCA)和统计提取技术,结合 Google Earth Engine(GEE)平台,获取了可靠的土地覆盖数据。GEE 和机器学习算法将多个产品的不可靠信息纠正为新的土地覆盖融合结果。与从现有产品中提取一致像素的常规方法相比,我们提出的方法有效地移除了近
,具有较高的分类错误概率。本研究中融合的整体准确性达到
,kappa 系数达到 0.82,整体准确性提高了
,kappa 系数提高了 0。与其他产品相比,从 16 提高到 0.3。对于现有的单一类别产品,我们纠正了不一致区域过度解释的现象;整体准确性提高范围从
到
,而 Kappa 系数提高范围从 0.22 到 0.56。因此,我们提出的方法可以结合多种产品的信息,作为大范围甚至全球土地覆盖融合产品的有效方法。
关键词:土地覆盖;多源信息融合;Google Earth Engine;超像素;大范围遥感产品
1. 引言
准确、大范围的土地覆盖地图是探索自然和生物活动与空间模式之间关系的基础数据支持[1,2];生态和环境变化的模拟、监测和评估[3];人类社会和经济发展[4,5];以及其他科学研究。粮食安全和耕地面积评估、森林变化监测、城市范围扩展和结构分析,以及水体面积提取和污染评估也需要及时更新大型专题地图,为人类可持续发展战略提供重要指标[6,7]。随着遥感技术的发展和各种卫星数据源的出现,遥感已成为大范围土地覆盖制图的重要方法。
基于来自 NOAA/AVHRR、MODIS、ENXISAT/MERIS 和其他卫星传感器的图像数据,土地覆盖产品通常具有粗糙的空间分辨率(300-1000 米)。例如,我们有来自波士顿的 500 米空间分辨率的 MODIS 全球土地覆盖数据
大学[8]。欧洲空间局(ESA)ESA-CCI 数据集具有 300 米的空间分辨率[10]。Copernicus 全球土地服务(CGLS)数据集具有 100 米的空间分辨率[11]。先前的研究表明,较低的空间分辨率通常会导致较低的准确性[12,13]。随着 Landsat 系列卫星的发展,利用中等空间分辨率的土地覆盖产品监测大面积成为可能。例如,由中国清华大学开发的 FROM-GLC 和由中国国家基础地理信息中心开发的 GlobeLand30 等具有 30 米空间分辨率[15]。此外,还有许多单一类别的土地覆盖产品,如美国地质调查局开发的 30 米全球粮食安全支持分析数据(GFSAD30)、由日本宇宙航空研究开发的先进陆地观测卫星相控阵 L 波段 SAR(PALSAR)[17]、全球地表水资源探测器数据集[18]等。不同的遥感图像影响土地覆盖数据的空间分辨率,而空间分辨率限制了土地覆盖分类系统的详细级别[19]。 因此,由于不同的分类系统、分类方法和卫星传感器类型,多源产品之间存在很大的不一致性。当多源产品在协作中使用时,将导致更大的不确定性。
数据融合可以通过整合多源数据来克服与单一数据源相关的有限精度和不确定性[21,22]。一些融合决策方法,如贝叶斯理论、Dempster-Shafer 证据理论和模糊集理论已经在许多研究中得到有效应用[20,23,24]。一些研究引入了多源统计来校准融合产品,从而提高了融合结果的准确性。原始产品的准确性显著影响融合结果[25,26],因此,随着输入产品的增加,产品的权重是根据先验知识确定的;否则,很难获得良好的结果[27]。由于融合决策方法的上述限制,研究人员从先前的地表覆盖产品中选择样本来更新地图。例如,美国地质调查局(USGS)提出了光谱变化监测方法来识别非变化区域,并将这些区域用作样本来训练决策树分类器,从而可以快速更新土地覆盖地图[28]。 然而,从单一表面覆盖产品的信息通常比多种产品的融合不太可靠。
多源数据融合通常需要重新采样以统一空间分辨率并获得一致的区域[16]。一致的区域被定义为在同一地理位置上各种土地覆盖产品保持相同类别的区域[29]。我们通常可以对每个地面覆盖产品保留的信息保持高度信心[27]。因此,从多源产品的一致区域中提取有效信息并校正不一致的区域被认为是有效提高制图精度的融合方法[30]。然而,由于重新采样,最终结果仍将具有粗糙的空间分辨率。
为了解决上述问题,我们基于现有方法[31]进行研究,并进一步提出了一种基于超像素和统计提取的多源土地覆盖产品融合方法,实现了细粒度空间分辨率和高精度融合结果。在第一步中,我们分析多个产品的一致性,将研究区域划分为 300 米空间分辨率(粗糙)一致区域和不一致区域,并在 GEE 平台上组成 30 米特征图层。在第二步中,使用 PCA 和 SNIC(简单非迭代聚类)算法对粗糙一致区域中的图像进行分割,去除异常像素,并获得 30 米空间分辨率(细粒度)一致区域。在第三步中,我们通过局部适应采样方法获得可靠的训练样本,并通过机器学习校正不一致区域,生成细粒度空间分辨率和高精度融合结果。然后,我们以东南亚为例应用和验证提出的方法。
2. 材料
2.1. 研究区域
研究区位于
和赤道之间,
和
之间,占地约 500 万
(图 1a),由丰富生物多样性的热带和亚热带生态系统组成。图 1a 显示,在这个位于北半球低纬度和中纬度的地区,净初级生产力(NPP)非常高。NPP 和生物多样性显著影响一个地区的人口密度[32]。大部分研究区被耕地和森林占据;在该地区,耕地扩张和森林减少非常普遍[33]。这在该地区形成了复杂的土地覆盖格局,因此需要准确的土地覆盖产品来提供数据,以支持各种科学研究,因为目前覆盖该地区的土地覆盖产品存在一致性差,同时使用时会产生不确定信息,详见第 2.2.1 节。因此,需要一种可靠的方法来融合各种地表覆盖产品,以产生高精度和统一的产品。
图 1. 研究区域和多源土地覆盖产品一致性分析结果。 (a) 研究区域地图。数据来自 NASA 地球观测网站(https://neo.gsfc.nasa.gov(2021 年 10 月 30 日访问)),用于 2015 年净初级生产力产品,并将复合月度产品合并为年度产品; (b) 300 米空间分辨率(粗糙)多源产品完全一致区域,一致区域定义为各种土地覆盖产品在同一地理位置保持相同类别的区域。研究区域被划分为
个瓷砖,并按区域编号。 (c) 多源产品的不一致区域;不一致区域是
中一致区域的补集。不一致区域中的同一地理位置将具有两个或更多类别。
位置的差异可能导致各种特征的光谱反射巨大变化,对受气候影响的特征(例如耕地和草地)影响更为显著[34]。此外,与整个研究区域相比,局部区域内特征分布存在显著差异,这种差异可能会影响在选择样本时的准确性[35]。同时,必须减少每次解释的区域面积,以确保不超出 GEE 的运行内存。因此,本研究将研究区域分成了 31 个
瓦片,如图 1b 所示,其中编号为 0 的瓦片由于土地面积较小未参与一致性分析(第 2.2.1 节)。尽可能从相应或相邻的瓦片中选择样本,以最小化纬度和经度差异的影响,详见第 3.3 节。
2.2. 数据来源和预处理
本研究使用了 2015 年覆盖研究区域的八种产品:中分辨率成像光谱辐射计土地覆盖类型产品(MCD12Q1)、CCI-LC、哥白尼全球土地服务(CGLS)、FROM-GLC、GFSAD30、PALSAR、全球地表水数据(GSWD)和全球人类定居点图层建成区域(GHS-BUILT)。产品详细信息列在表 1 中。我们将这八种产品统一到相同的地理坐标系统(WGS84,世界大地测量系统 1984 年),并进行空间分辨率统一,以便进行多源数据融合。在先前的研究中,数据空间分辨率统一通常是通过选择粗糙的空间分辨率作为重新采样的目标,以最佳控制产品精度。考虑到这八种产品中只有一种(MCD12Q1)具有 500 米的空间分辨率,其次是 300 米,重新采样到 300 米可以保留最大数量的细节。最近邻是要使用的重新采样技术,根据以前的研究确定。 八种产品的分类系统定义因不同的生产商和传感器而异,我们整合了每种产品的分类系统,最终将其分类为九种地面覆盖类别之一(图 1b)。分类系统的更多细节可在文献和 S 1 [31]中找到。
表 1. 八种土地覆盖产品的详细信息。
产品名称
源文本
空间分辨率(米)
传感器
分类方法
MCD12Q1
波士顿大学
500
MODIIS
CCI-LC
ESA
300
MERIS FR/RR, AVHRR, SPOTVGT, PROBA-V
CGLS
ECJRC
100
PROBA-V
随机森林
FROM-GLC
30
TM ETM+
GSALSAR
USGS
30
MODIS
机器学习
GHS-BUILT
ECJRC
35
TM ETM + OLI
一致性水平被定义为与图像位置处类别一致的土地覆盖产品数量。更高的一致性水平代表相应类别的更高置信水平。本研究中一致性区域生成的方法与刘和徐[31]相同。每个类别的最高一致性水平像素被选为每个类别的一致区域。 (图 1b)。其余部分称为不一致区域(图 1c),约占 55.3%。请注意,这里的一致区域是 300 米空间分辨率,我们称之为粗糙一致区域。由于 30 米空间分辨率的土地覆盖产品具有更多细节,粗糙一致区域忽略了这些细节,从而限制了应用。同时,错误标记的像素将提供不正确的样本,限制了采样精度。
2.2.2. Landsat 数据合成
在本文中,选择了 30 米空间分辨率的 Landsat 图像来重新解释不一致的区域。在 GEE 平台上筛选无云像素和云掩蔽的图像后发现,2015 年的图像不足以覆盖整个研究区域,因此选择了 2015 年相邻年份(2014 年和 2016 年)的 Landsat 图像来填补数据中的空白。对覆盖 2014-2016 年三年研究区域的地球观测卫星 7 ETM+和 8 OLI 传感器的正射校正表面反射数据进行了筛选,共筛选了 27,223 幅图像,包括 11,278 幅 Landsat 7 ETM+和 15,945 幅 Landsat 8 OLI。由于每幅图像中的云、云影和雪造成的无效观测被 GEE 平台上的 FMASK 算法掩盖。在长时间序列中使用 Landsat 7 数据填补数据中的空白并增加有效观测的频率。此外,Roy 等人发现 Landsat ETM+和 Landsat 8OLI 的光谱特征可能存在微小但显著的差异。因此,我们应用了 Roy 等人提出的系数。 通过将 ETM +光谱空间线性转换为 OLI 光谱空间来实现和解。
Six spectral bands, namely, blue, green, red, near-infrared (NIR), shortwave infrared (SWIR)1, and SWIR2 are used in Landsat 7 ETM+ and Landsat 8 OLI, and 11 spectral indices are calculated, with the formulae for each spectral index shown in Table 2 [39]. Referring to previous research to ensure adequate phenological information and image quality, the year was divided into three periods (period 1: 1-120 days in 2015, period 2:
days in 2015, and period 3:
days in 2015) [31,35]. We used the median pixel of the time series of each period as the spectral feature of this period, because the median in time series is insensitive to phenological change [40]. To increase the discrimination of the features, we also calculated the standard deviation of each feature for three years, such that a total of 68 band feature layers (
bands +11 spectral indices
periods
three-year standard deviation) were synthesized on the GEE platform by each tile.
重试
错误原因
表 2. 光谱指数的公式。
光谱指数
公式
归一化植被指数(NDVI)[41]
(1)
绿色叶绿素植被指数(GCVI)[42]
(2)
增强植被指数(EVI)[43]
(3)
归一化烧伤指数(NBR)[44]
(4)
归一化差异水指数 [45]
(5)
归一化建成指数 [46]
(6)
标准化差异雪指数(NDSI)[47]
修改后的土壤调整植被指数(MSAVI)[48]
(8)
土壤调整总植被指数(SATVI)[49]
(9)
裸土指数(BSI)[50]
(10)
蓝红(BR)[51]
蓝色 - 红色
(11)
3. 方法
图 2 显示了本研究中使用的流程图,以实现多源土地覆盖产品融合方法。该方法分为三个主要部分。首先,在研究区域内获取了 Landsat ETM 和 OLI 图像,并在 GEE 上进行预处理,以创建复合图像层。其次,使用 PCA 技术来减少 68 个波段的维度,使用 SNIC 算法来在粗一致区域中分割图像层,并通过统计方法去除异常像素。最后,通过本地适应采样方法在 30 米空间分辨率一致区域获得了大量可靠的训练样本,并重新解释不一致区域并评估准确性。通过高空间分辨率图像的样本点进行验证结果,并通过 Google Earth 进行视觉解释。
图 2. 流程图概述。PCA—主成分分析[51]; SNIC—简单非迭代聚类[52]。
3.1. Principal Component Analysis of Coarse Consistent Areas
重试
错误原因
许多研究通过光谱特征的异常分布来确定每个像素是否从现有的土地利用覆盖产品中发生了变化[28,53]。本研究将这种方法应用于粗一致区域中的样本净化(图 1b)。用于统计分布的光谱特征通常包括多个指标,例如,Zhang 等人使用与 39 个指标均值距离最小的像素作为样本[35],因为没有单个指标可以区分多个特征,而多个指标的异常值检测是一个复杂的问题。在本研究中,我们采用 PCA 技术对 68 个特征层的特征进行重构,重新生成 PC1-68 波段,其中第一个主成分(PC1)可以等效地定义为最大化投影数据方差并随后递减的方向[50]。通过这种方法,每个特征可以通过更少的波段来区分,实现数据维度的降低。我们分别对每个瓦片内的一致区域执行 PCA,这一步骤在 GEE 上执行。
3.2. 粗糙一致区域的超像素去除
多源数据预处理和重采样可以实现粗一致的区域。事实上,像 Landsat 图像这样的数据已经可以提供更详细的结果。因此, 我们的目标是净化粗糙的一致区域,并将其改进为细分辨率。然后,我们从最初获得的细一致区域中提取有效信息,并应用由 GEE 提供的 30 米空间分辨率 Landsat 图像来纠正多个来源之间的不确定信息[31]。
然而,逐像素去除会产生大量斑点(“椒盐现象”),因为图像像素内部的异质性[54],并且大量像素的计数通常超过 GEE 内存限制。 超像素是由一系列相邻像素组成的小区域,具有类似特征,如颜色、亮度和纹理。 这些小区域中的大多数保留了有效信息,通常不会破坏图像中物体的边界信息。 通过超像素分割算法将具有某些相似特征的像素分组,然后去除像素组(超像素),将大大减少椒盐现象,同时避免由于冗余信息而导致的计算复杂性[55]。 本研究选择了由 GEE 提供的简单非迭代聚类(SNIC)超像素算法,这是简单线性迭代聚类算法(SLIC)的改进版本,不需要迭代,更高效,并且更适合边界保护。
此外,SNIC 需要一个大小参数来确定种子间隔,考虑到一致区域具有 300 米的空间分辨率,Landsat 图像具有 30 米的空间分辨率,我们通过实验确定了大小值为 3,这足以对一致区域的 Landsat 图像进行过分割,避免后续去除异常值时分割不足的影响[56]。我们将 SNIC 中的紧凑度参数设置为 0,禁用空间距离加权,因为我们不希望生成的像素是规则的紧凑正方形;聚合具有相似属性的像素对我们的目的已经足够。在 2015 年中位数处合成了 Landsat 图像的六个原始波段的均值,并用作输入分割的波段。在 SNIC 分割后,计算了每个超像素内 PC1 和 PC2 的均值,并将其用作超像素的特征。通过聚合具有相同属性的图像元素,每个超像素的统计特征更加符合真实地理对象,并且异常值更容易被检测到[57]。
然后,我们计算了生成的超像素的 PC1 和 PC2 属性。通常,异常值检测的阈值是通过经验确定的,或者通过最优阈值搜索算法确定,被移除的超像素覆盖了粗一致区域中的错误标记区域[28]。然而,粗一致区域是多类别的,如果同时执行会导致过度或不足移除。因此,我们分别计算并移除了每个类别的粗一致区域。经过我们的测试,每个特征的 PC1 和 PC2 被发现是正态分布的,因此我们结合了 PC1 和 PC2,并应用了 Lajda 准则来构建异常值判别条件:
其中
代表地面覆盖类别,
代表每个超像素,
代表每个类别中每个超像素的
值,
代表每个类别中
的平均值,
分别代表每个类别中 PC1、PC2 的标准差。根据 Morisette 和 Khorram 的研究,他们证明了阈值的最佳范围是平均值加减
倍标准差[58],我们确定了阈值,以标准差作为范围。然后,满足异常值判别条件的超像素中的图像像素被视为一个良好的一致区域;否则,它们被标记为已移除的像素。已移除的像素与第 2.2.1 节中的不一致区域合并,形成最终的不一致区域。
3.3. 本地适应样本集
根据第 2.1 节,研究区域被划分为 31 个瓦片,以减少纬度和经度差异对不同特征反射的影响,并采用了本地自适应采样方法[35]。在每个瓦片内,每个特征的样本必须首先从该瓦片内的精细一致区域中随机选择,以进行净化。我们仅对每个类别的样本数量设定了下限(1000),总数则没有上限,只需满足 GEE 操作的内存限制。如果由于某一类别的精细一致区域不足或一致区域较少而导致相应瓦片中样本不足,缺失的样本将从最近的周围瓦片中补充。所选样本仅用于训练当前瓦片。样本总数超过 30 万;这一组称为本地自适应样本集。使用这种本地自适应采样方法可以最小化由于空间分布而导致类别特征属性的不一致性。随机采样是通过在精确一致区域内生成随机点来生成的。
3.4. Correction of Inconsistent Areas
重试
错误原因
在这项研究中,随机森林(RF)分类器通过第 3.3 节的本地适应训练样本进行训练,旨在重新解释不一致的区域。RF 是一种机器学习分类器,包含多个决策树,其输出类别由各个树的输出类别的多数决定[59]。在遥感领域,RF 相比其他机器学习分类器具有对噪声不敏感、避免过拟合和实现更高准确性的优势。根据先前的研究,我们选择了 300 棵树,使用随机选择的
训练数据来打包每棵树作为 RF 分类器的参数[52,60,61]。分类结果与精细一致的区域拼接,形成新的 30 米空间分辨率的土地覆盖融合结果。
3.5. 验证和准确性评估
为验证从精细一致区域提取的样本的可靠性,使用 Google Earth 中的历史高空间分辨率图像对其进行验证。我们从每个类别的精细一致区域随机选择了 900 个样本点(每个类别 100 个)[62],统计了每个像素点的类型和九个类别的混淆矩阵,并计算了在去除之前和之后每个点被正确遮罩的准确性。
使用分层随机抽样生成的验证点进行不一致区域校正结果的验证和评估,并且这些验证点也通过 Google Earth 进行解释。验证点的数量为 1507(表 3)。还比较和评估了研究区域内的四种原始空间分辨率多类别土地覆盖产品(MCD12Q1、CCI-LC、CGLS 和 FROM-GLC)和四种单一类别产品(GFSAD30、PALSAR、GSWD 和 GHS-BUILT)。值得注意的是,我们的准确性评估仅在不一致区域进行,因为各种产品的准确性差异主要反映在那里[31]。相比之下,所有产品在精细一致区域的类别分布相同且完全可靠。我们为每种产品计算混淆矩阵,并计算常用指标(生产者准确性、用户准确性和总体准确性)来评估校准结果和四种多类别产品的空间分布的准确性。
表 3. 评估研究区校正结果准确性的验证点。
班级
测试样本数量
耕地
355
森林
565
草原
155
灌木丛
76
水
86
城市/建成区
100
光秃的土地
62
永久雪和冰
57
湿地
51
总计
1507
4. 结果
4.1. 30 米空间分辨率粗一致区域去除结果
图 3a 显示了超像素去除的结果。在计算像素数量后,其中约
个被移除了(图 3b)。在这些中,由于细一致区域中图像元素的小发生率和不均匀空间分布,灌木地、裸地、永久性雪和冰以及湿地这些类别需要本地适应样本。图 4 显示了放大窗口中去除结果的视觉细节。从视觉效果来看,通过超像素去除方法可以有效去除粗一致区域的九个类别的错误标记像素。图 4a 显示了对农田进行粗一致区域去除的结果,相应的高清晰度图像可以识别出被移除的像素是建筑区域。 图 4b 显示了对森林土地进行一致面积去除的结果,被去除的像素是森林中的道路和裸地;从草地中去除的像素(图 4c)是草地中的裸地和道路;从灌木地中去除的像素(图 4d)是周围的裸地;从水体的一致区域中去除的像素(图 4e)是水体周围的耕地、草地、建筑区和裸地;从城市/建设用地的粗糙一致区域中去除的像素(图 4f)是草地、水体和裸地;裸地的粗糙一致区域(图 4g)和永久积雪和冰(图 4h)在高海拔混合在一起。湿地的一致区域(图 4i),虽然不太一致,仍然去除了一些明显不是湿地的像素。在精细一致区域中不会产生椒盐现象,因为去除的是超像素而不是单个像素。
我们验证了表 4 中显示的 900 个随机选取样本的混淆矩阵(图 5),发现灌木地和永久积雪的样本准确率低至
,水域的准确率高达
,所有样本的总体准确率为
。混淆矩阵显示了每种类型样本的错误情况:例如,耕地样本包含少量草地、水域和城市/建设区。这表明在精细耕地一致区域的 30 米空间分辨率内,耕地中仍存在不一致的特征类。然而,所选样本中每种类型的错误率均不超过
。通过上述验证,我们知道我们的方法选择的样本是可靠的,并满足 RF 分类器最多可以抵抗
噪声的阈值要求[61]。
图 3. 去除的粗一致区域:结果和统计。 (a) 去除的粗一致区域:结果。黑色代表已移除的像素,其他颜色是每个类别的细一致区域。 (b) 移除结果的统计:红色是已移除像素的百分比,蓝色是已移除的剩余像素的百分比。
删除像素耕地
灌木丛
水
湿地
图 4. 粗糙一致区域去除结果的视觉细节。基础图像是同一位置的高分辨率遥感图像。(a-i) 分别为耕地、森林地、草地、灌木地、水域、城市/建设用地、裸地、永久性雪和冰、湿地的一致区域去除结果。黑色对角区域表示已去除的图像元素。相应的彩色虚线区域表示对应类型经过净化后的精细一致区域。
图 5. 在细致一致区域中随机像素点的验证结果。
表 4. 在细致一致区域中随机像素点的验证结果混淆矩阵。
班级
耕地
森林
草原
灌木丛
水
裸地
湿地
总计
耕地
97
1
1
3
0
1
1
0
5
109
森林
0
98
1
2
0
0
0
0
0
101
草原
1
0
92
4
0
1
4
6
1
109
灌木丛
0
1
3
90
0
0
0
0
0
94
水
1
0
0
0
99
1
0
0
3
104
城市/建成区
1
0
1
0
1
95
2
0
0
100
光秃的土地
0
0
1
1
0
2
91
4
0
99
0
0
1
0
0
0
2
90
0
93
湿地
0
0
0
0
0
0
0
0
91
91
总计
100
100
100
100
100
100
100
100
100
900
4.3. 不一致区域校正结果和准确性评估
不一致区域的校正结果如图 6 所示。基于验证点的 PA、UA、OA 和混淆矩阵如表 5 所示。最终校正结果的总体准确率为
,kappa 系数为 0.82。在 PA 的验证中,森林的最高 PA 可达
。灌木地的 PA 最低,
。在 UA 的验证中,城市/建成区的 UA 最高达
,而湿地最低为
。PA 和 UA 之间的差异代表了土地覆盖产品对土地覆盖类型准确性的可靠性(Li 和
)。在校正结果中,除了建设用地和湿地之外,所有类型的 PA 和 OA 之间的差异都在
以内,表明这些类型在结果中相对强大。建设用地的 PA 和 UA 之间的差异为
,这是由于城市区域复杂的景观格局,容易将城市植被误分类为耕地和草地类型,从而降低城市/建成区的映射准确性。 湿地的 PA 和 UA 之间的差异是
,因为农田、草地和水体在一定程度上很容易被误解为湿地,导致湿地类型的 UA 较低。
图 6. 不一致区域的校正结果和验证点的分布。
表 5. 不一致区域验证点的混淆矩阵。
班级
耕地
森林
草原
灌木丛
水
湿地
总计
PA
OA
卡拉
耕地
307
24
11
0
4
3
0
0
6
355
86.48%
85.80%
0.82
森林
28
517
7
9
2
1
0
0
1
565
91.50%
草原
8
7
121
10
0
4
0
0
5
155
78.06%
灌木丛
7
7
6
56
0
0
0
0
0
76
73.68%
水
3
0
1
0
75
1
1
0
5
86
87.21%
城市/建成区
12
0
3
0
1
82
1
0
100
82.00%
光秃的土地
2
1
7
1
2
0
49
0
0
62
79.03%
0
0
2
0
0
0
9
46
0
57
80.70%
湿地
5
3
0
2
1
0
0
0
40
51
78.43%
总计
372
559
158
78
85
91
60
46
58
1507
UA
82.53%
92.49%
92.49%
76.58%
71.79%
88.24%
90.11%
81.67%
100.00%
68.97%
4.4. 与其他产品的比较
4.4.1. 多类别产品比较
已经校正的不一致区域与细致一致区域镶嵌在一起,以获得细致的空间分辨率土地覆盖融合结果。如图 7a 所示,瓷砖边界没有差异。与其他多类别产品相比(图
),所提出的方法获得的土地覆盖结果在特征类分布方面略有相似,这是因为该方法中包含的多种产品的一致性。
图 7. 修正和现有多类别产品的比较:(a) 融合结果;(b) CCI-LC;(c) CGLS;(d) FROM-GLC;(e) MCD12Q1。
然而,空间分辨率和映射方法的差异导致每种产品的细节存在显著差异,如图 8 所示。由于 CCI-LC、CGLS 和 MCD12Q1 三种产品的空间分辨率低于 30 米,因此会错过许多细节。例如,一些细小的河流(图 8(a1))在这三种产品中完全被忽略(图 8(a3,a4,a6)),即使在粗糙的空间分辨率 MCD12Q1 中,也只有森林类别。城市/建成区类型在内部更加复杂(图 8(b1)),在粗糙的空间分辨率产品中,城市/建成区类型内部信息甚至更不完整(图 8(b3,b4,b6))。永久性的雪和冰、草地和裸地是 粗糙的空间分辨率产品中没有准确描绘(图 8(c3,c4,c6))。FROM-GLC 具有与我们融合结果相同的空间分辨率,尽管在视觉上没有忽略细节,但我们的土地覆盖产品在描绘真实地形方面更准确。例如,图 8(a1,a2)中的许多裸地和草地区域被错误地标记为 FROM-GLC 中的耕地(图 8(a5)),连续的水体(在图 8(b1)中)被错误地标记为建筑物(图 8(b5)),在图 8(c1)中,FROM-GLC 产品错误地将位于阴影中的部分裸地和草地标记为水体(图 8(c5))。
图 8. 融合结果与其他四种多类别产品的细节进行比较:(a-c) 三个区域; (a1-c1) 三个区域的遥感图像; (a2-c2) 三个区域的融合结果; (a3-c3) 三个区域的 CCI-LC 类别分布; (a4-c4) 三个区域的 CGLS 类别分布; (a5-c5) 三个区域的 FROM-GLC 类别分布; (a6-c6) 三个区域的 MCD12Q1 类别分布。
多类别产品的不一致区域验证点的准确性评估结果显示在表 S2-S5 中,校准结果和四种产品(包括 PA、UA、OA 和 Kappa 系数)的比较评估结果显示在图 9 中。图 9 显示我们不一致区域校正结果中每种类型的 PA 都高于其他四种产品。在 UA 的比较中,除了草地、灌木地和裸地这些定义不清晰的地类以及难以识别的湿地外,UA 并非最高。其他类型的 UA 都高于其他四种产品。我们的校正结果具有最高的 OA(0)和 kappa 系数(1),MCD12Q1 的 OA 最低(OA 为 2,kappa 系数为 0.52),校正结果在 OA 方面优于其他产品;kappa 系数增加了(4)。这表明我们提出的方法的映射结果有效地提高了不一致区域土地覆盖的准确性。
图 9. 与其他四种多类别产品的验证结果进行校正结果比较。
4.4.2. 单一类别产品比较
在图 10 中,将耕地、森林、水域和城市/建成区类型在校准结果中与四种单一类别产品(GFSAD30、PLASAR、GWSD 和 GHS-BUILT)进行比较。校正结果中相应类别的分布与这四种产品保持一致。四种单一类别不一致区域的校正和验证结果的混淆矩阵显示在表 S6-S13 中,比较评估结果显示在表 6 中。根据不一致区域中相应类别准确性的比较,我们的校正结果的生产者精度(PA)更接近现有的单一类别产品,而用户精度(UA)、总体精度(OA)和 kappa 系数高于相应单一类别产品。不一致区域中每种类型的 OA 改进各不相同,森林改进最大,为
,改进最小。 对于水体仅
。至于 kappa 系数,城市/建成区的最大改进为 0.56,水体的最小改进为 0.22。结果显示,与单一类别相比,我们的方法略微提高了准确性。
a1
b1
图 10. 四种单一类别产品的校正结果比较:(a1,a2) 用于耕地分布,其中(a1) 是 GFSAD30,(a2) 是校正结果的耕地分布;(b1,b2) 用于森林分布,其中(b1) 是 PLASAR,(b2) 是校正结果的森林分布;(c1,c2) 用于水域分布,其中(c1) 是 GWSD,(c2) 是校正结果的水域分布;(d1,d2) 是城市/建成区分布比较,其中(d1) 是 GHS-BUILT,(d2) 是校正结果的城市/建成区分布。
表 6. 与四个单一产品类别的准确性评估相比的校正结果。
土地覆盖类型
用户准确率 (%)
总体准确率 (%)
卡帕
耕地
86
83
93
0.8
75
52
78
0.47
森林
92
92
94
0.87
66
64
73
0.43
水
87
88
99
0.87
79
59
96
0.65
城市/建成区
82
90
98
0.85
74
24
83
0.29
5. 讨论
为解决先前融合方法中由于重采样而无法实现良好空间分辨率的融合结果问题[27,29,30],本研究基于 SNIC 分割算法和 PCA 技术开发了一种多源土地覆盖产品融合方法。结果表明,该融合方法能够获得具有良好空间分辨率的融合结果,并在不一致区域的准确性上有不同程度的提高。该方法创造性地利用 SNIC 分割算法将 Landsat 图像层在粗糙一致区域分割为像素组,并通过 PCA 和统计方法去除异常像素组。因此,粗糙一致区域可以被纯化为细致一致区域,并且空间分辨率也从 300 米增加到了 30 米。这在先前的研究中从未实现过。结果显示,在粗糙一致区域中
像素被移除。此外,大多数被移除的像素是错误标记的,因为它们在重采样过程中被忽略了(图 4)。
同时,通过对细一致区域进行采样检测,样本准确率可达
。本研究中 RF 的样本准确率是可以满足的。因此,本文提出的 SNIC 和 PCA 方法用于提高融合结果的空间分辨率值得参考。
在 GEE 庞大的数据集和大量样本点(超过 300,000 个)的支持下,对不一致区域进行了重新校正。获得了新的精细空间分辨率融合结果。结果显示,在四种可用的多类别产品中,CCILC、CGLS 和 MCD12Q1 的空间分辨率低于 30 米,并且提供的信息明显少于本研究中的融合结果。对于具有相同空间分辨率的 FROM-GLC,我们的融合结果在不一致区域提供了显著更高的准确性。不一致区域的整体准确性可以达到
,kappa 系数可以达到 0.82,至少提高
的 OA,kappa 系数至少提高 0.16。与单一类别产品相比,整体准确性至少可以提高
,kappa 系数至少可以提高 0.22。与其他研究类似,本研究还发现了对单一类别产品的过度解释。 根据单一类别验证点的混淆矩阵,单一类别产品不一致区域内的其他类型很容易被过度翻译为这一单一类型,导致产品的 PA 与 UA 相比存在过大差异。本研究采用的方法纠正了不一致区域内单一产品过度解释的问题。因此,本研究提供的融合方法可以有效整合多个土地覆盖产品并纠正不确定信息。
我们发现,在多类别土地覆盖映射中,耕地和草地很容易被混淆,而灌木地是草地和裸地之间的过渡土地覆盖类型。湿地本质上是一种难以映射的土地覆盖类型,在湿润地区,湿地、耕地和草地也容易被误分类。这些类型之间的光谱特征非常相似,导致草地、灌木地和湿地在每种产品中的准确性相对较低。尽管我们的方法可以提高这些类型在不一致区域的映射准确性,但要实现高准确性仍然很困难,这在未来研究中必须注意以更准确地区分这些类型。草地、裸地和永久性雪和冰分布在高纬度和高海拔地区,由于季节性变化导致的融化雪和冰,它们经常被误认为是彼此,这也需要在未来研究中注意。
尽管我们的方法可以整合多个土地覆盖产品的有效信息并显著提高准确性,但仍有一些方面有待改进,并应继续在未来进行调查,考虑当前方法中的问题。本文提出的方法需要在同一年有许多土地覆盖数据的条件下进行,并且遥感图像完全覆盖。本研究选择的土地覆盖产品来自 2015 年,仅能用 30 米空间分辨率的 Landsat 图像覆盖研究区域。随着土地覆盖数据的更新和高分辨率遥感图像的开放获取,如 Sentinel 2 和 GF 系列,本文提出的方法仍然适用,并获得了空间更高分辨率的土地覆盖融合产品。然而,仍存在一些问题和改进的可能性。首先,大面积、高空间分辨率的图像分割是一个挑战,确保准确的分割和操作效率是一个需要解决的问题。 研究表明,数据立方体可以解决全球遥感数据覆盖不足的问题,因此本文提出的方法也可以利用数据立方体获得高时间频率的土地覆盖产品。最后,近年来深度学习在遥感领域展现出极大潜力,通过深度学习融合和预测比传统模型更准确的信息也将是我们未来的方向。