2015 年基于多源产品融合方法的改进全球土地覆盖制图,分辨率为 30 米(GLC-2015)
李冰洁
1
1
^(1) { }^{1} , 许晓聪
1
1
^(1) { }^{1} , 刘小平
1
,
2
1
,
2
^(1,2) { }^{1,2} , 施倩
1
1
^(1) { }^{1} , 庄浩铭
1
1
^(1) { }^{1} , 蔡耀通
1
1
^(1) { }^{1} , 和 贺达
1
1
^(1) { }^{1} 广东省城市化与地理仿真重点实验室,地理与规划学院,太阳 中山大学,广州,510275,中国 南方海洋科学与工程广东实验室(珠海),珠海,519080,中国
correspondence: 刘小平 (liuxp3@mail.sysu.edu.cn ) 收到:2022 年 4 月 28 日 - 讨论开始:2022 年 8 月 3 日 修订日期:2023 年 4 月 19 日 - 接受日期:2023 年 4 月 23 日 - 发布日期:2023 年 6 月 7 日
摘要
全球土地覆盖(GLC)信息以精细的空间分辨率为地球系统的生物地球化学循环和全球气候变化研究提供了基础数据输入。尽管有多个公共的 30 米分辨率 GLC 产品,但在这些产品之间发现了相当大的不一致性,特别是在破碎区域和过渡带,这给各种应用任务带来了很大的不确定性。在本文中,我们基于证据的邓普斯特-谢弗理论(DSET),融合多个现有的土地覆盖(LC)产品,开发了 2015 年改进的全球土地覆盖图(GLC-2015),其分辨率为 30 米。首先,我们使用超过 160,000 个全球基于点的样本,局部评估每个地理网格内每个土地覆盖类别的输入产品的可靠性,以建立基本概率分配(BPA)函数。然后,使用邓普斯特的组合规则,对每个 30 米像素进行处理,从所有候选地图中推导出每个可能土地覆盖类别的组合概率质量。最后,根据决策规则确定每个像素的土地覆盖类别。 通过这一融合过程,预计每个像素将被分配到有助于实现更高准确度的土地覆盖类别。我们分别使用 34711 个全球基于点的样本和 201 个全球基于斑块的样本评估了我们的产品。结果显示,与现有的 30 米 GLC 地图相比,GLC-2015 地图在全球、洲际和生态区的制图性能达到了最高,整体准确度为
79.5
%
(
83.6
%
)
79.5
%
(
83.6
%
)
79.5%(83.6%) 79.5 \%(83.6 \%) ,与基于点(基于斑块)验证样本的 kappa 系数为
0.757
(
0.566
)
0.757
(
0.566
)
0.757(0.566) 0.757(0.566) 。此外,我们发现 GLC2015 地图在不一致性区域表现出显著的优越性,在中等不一致性区域的准确度提高了
19.3
%
−
28.0
%
19.3
%
−
28.0
%
19.3%-28.0% 19.3 \%-28.0 \% ,在高不一致性区域的准确度提高了
27.5
%
−
29.7
%
27.5
%
−
29.7
%
27.5%-29.7% 27.5 \%-29.7 \% 。希望这一改进的 GLC-2015 产品能够应用于减少全球环境变化研究、生态系统服务评估和灾害损失评估中的不确定性。本研究开发的 GLC-2015 地图可在https://doi.org/10.6084/m9.figshare.22358143.v2 (Li et al., 2023)获取。
1 引言
土地覆盖(LC)受到自然和人类活动的影响(Running, 2008;Gong et al., 2013;Song et al., 2018;H. Liu et al., 2021),是地球系统的重要组成部分(Yang and Huang, 2021)。全球土地覆盖(GLC)产品可以作为气候和环境变化等各种研究的基础数据(Bounoua et al., 2002;Foley 等,2005;Grimm 等,2008;Yang 等,2013;Schewe 等,2019),粮食安全(Verburg 等,2013;Ban 等,2015),碳循环(Moody 和 Woodcock,1994;Defries 等,2002;Gómez 等,2016),生物多样性保护(Chapin 等,2000;Giri 等,2005),以及土地管理(Mayaux 等,2004;Verburg 等,2011)。因此,迫切需要详细的, 准确且高质量的 GLC 产品,以支持全球变化研究和可持续发展。
在初步阶段,土地覆盖(LC)制图主要依赖于视觉解读,这既耗时又费力,并且在全球范围内应用困难(龚,2012)。近年来,卫星遥感数据因其能够提供大面积覆盖和长期监测的信息而被采用来生成全球土地覆盖(GLC)产品。利用高级非常高分辨率辐射计(AVHRR)、中分辨率成像光谱仪(MODIS)、中分辨率成像光谱仪(MERIS)和全球陆地表面卫星(GLASS)等低分辨率卫星数据,开发了多种分辨率在 5 公里到 300 米之间的 GLC 产品(洛夫兰德等,2000;汉森等,2000;巴尔托洛梅和贝尔沃德,2005;弗里德尔等,2010;德福尼等,2018;刘等,2020)。尽管这些 GLC 产品已广泛应用于许多领域,但已证明传感器、分类系统之间的差异以及某些地区的准确性较低阻碍了这些产品的协调(赫罗德等,2008;维尔堡等,2011;格雷库西斯等,2015)。 此外,由于这些产品的空间分辨率相对较粗,远未能提供足够的 LC 细节,无法满足许多研究的需求(Giri 等,2013;Yang 等,2017)。为了进行能够捕捉大多数人类活动的研究,需要更高分辨率(例如,30 米)的 GLC 产品(Giri 等,2013)。
随着高分辨率卫星遥感数据的免费获取,细分辨率的全球土地覆盖(GLC)制图已成功进行。利用 Landsat 影像,取得了里程碑式的成就,生成了两个分辨率为 30 米的 GLC 产品,即全球土地覆盖的更细分辨率观测与监测产品(FROM_GLC)(Gong 等,2013)和 Globeland30(Chen 等,2015)。此后,2017 年利用首个全季节样本集实现了 30 米分辨率的 GLC 制图(Li 等,2017)。最近,Zhang 等(2021)使用 Landsat 时间序列影像和来自全球时空光谱库(GSPECLib)的高质量训练数据,生成了 2015 年的 30 米 GLC 地图(GLC_FCS30),采用了两级分类方案。在过去几年中,已经进行了多次尝试,以提高 30 米 GLC 产品的准确性,这些产品在 GLC 制图任务的生成中占据了主导地位。FROM_GLC 是通过采用四种分类算法对 Landsat 影像进行分类,并选择 MODIS EVI 数据的时间序列进行训练和测试而创建的。 Globeland30 是通过提出基于像素-对象-知识(POK)的方法来确保一致性和准确性而创建的。GLC_FCS30 是通过采用具有高质量训练样本的局部自适应随机森林模型生成的,这些样本来自 GSPECLib。Globeland30、FROM_GLC 和 GLC_FCS30 是优秀且不可或缺的 GLC 产品,为生物多样性保护(吴等,2020;孟等,2023)、气候变化(金等,2016;薛等,2021;郑等,2022)和土地管理(Shafizadeh-Moghadam 等,2019)等多项研究做出了重要贡献。除了这些多类 GLC 产品外,还成功生成了针对单个土地覆盖(LC)类别的 GLC 产品,如农田(余等,2013;陆等,2020)、森林(汉森等,2013;岛田等,2014;张等,2020)、湿地(胡等,2017;张等,2023)、水体(廖等,2014;佩克尔等,2016;皮肯斯等,2020)和不透水表面(龚等,2020;黄等,2021, 2022;刘等,2020)。
尽管在生产更准确的产品方面付出了巨大努力,但现有的 30 米全球土地覆盖(GLC)产品在某些土地覆盖类别和特定区域(Sun et al., 2016; Kang et al., 2020)仍然表现不稳定。此外,现有的 30 米产品在整体空间分布模式上表现出很好的一致性,但在某些特定区域(异质区域和过渡区)以及光谱相似类别(森林和灌木丛、农田和草地)上存在显著的空间不一致性(Gao et al., 2020; L. Liu et al., 2021)。现有 30 米 GLC 产品之间的空间不一致性源于它们的分类系统、所采用的分类技术、源数据以及训练样本的空间分布和大小的差异(Yang et al., 2017; Gao et al., 2020)。由于上述限制,GLC 产品的用户在为其特定应用选择数据时仍然面临困难。最终,这种情况导致在使用不同的 30 米 GLC 产品时,相关研究的结果存在不确定性。 对于具有精细空间分辨率的 GLC 制图,应更加关注在异质和碎片化景观中的制图改进(Herold 等,2008;L. Liu 等,2021)。因此,迫切需要生成更准确和可靠的 GLC 产品,具有高分类精度,特别是针对空间不一致区域和低精度 LC 类别。
根据 Gong 等人(2016)的研究,LC 产品之间的不一致性表明可用的补充信息,通过将输入地图与数据融合方法结合,可以生成更强大和可靠的数据。考虑到不同地图之间存在分歧,并且在不同位置提供准确的信息,我们可以通过加权所有可用信息的可信度,并通过决策规则将其结合,从而为每个像素分配最佳类别标签(Clinton 等人,2015)。通过这种方式,输入地图的集成输出图可以减少将错误类别标签分配给像素的整体风险,并至少达到输入地图的平均性能。已经进行多次尝试,使用各种方法生成准确且一致的 LC 地图,例如多数投票(MV)、模糊一致性和贝叶斯理论。Iwao 等人(2011)基于简单的多数投票方法创建了 GLC 地图。Jung 等人(2006)通过结合 MODIS、GLC2000 和 GLCC 数据,基于模糊一致性评分生成了 1 公里的 GLC 地图。随后,
弗里茨等人(2011)通过对 LC 地图进行排名,扩展了 Jung 等人(2006)的方法,并绘制了撒哈拉以南非洲的耕地范围。See 等人(2015)通过将中分辨率 LC 产品与地理加权回归(GWR)结合,生成了两个 GLC 产品。Gengler 和 Bogaert(2018)提出了一种贝叶斯数据融合方法,并将其应用于比利时特定区域的 LC 绘制。所有这些研究表明,融合方法可以创建一个集成的 LC 产品,通过结合候选地图的最佳部分,显著提高了绘制精度。然而,MV 方法对候选地图的质量敏感,当输入产品存在较大分歧时,会产生显著的不确定性(Chen 和 Venkataramanan,2005)。模糊一致性高度主观,因为它依赖于专家评估,而贝叶斯理论需要先验知识或条件概率,并无法处理无知状态(Liu 和
Xu
,
2021
Xu
,
2021
Xu,2021 \mathrm{Xu}, 2021 )。
德姆普斯特-谢弗证据理论(DSET)是一种基于证据的处理不确定性的方法。与多数投票不同,DSET 方法可以根据反映信念程度的概率质量来折扣来自不准确信息的证据,而不是简单的二元决策(Razi 等,2019)。与贝叶斯理论相比,DSET 可以整合来自多种来源的证据,而不需要先验知识(Chen 和 Venkataramanan,2005)。此外,基于 DSET 方法的最终融合结果的可靠性是通过总信念度来衡量的。尽管以往文献集中于 DSET 方法在多源数据聚合中的应用,但由于缺乏准确和充足的样本以及对足够计算资源的需求,全球范围内的研究非常有限。
在本研究中,我们提出了一种多源产品融合方法,基于谷歌地球引擎(GEE)平台,旨在生成 2015 年改进的 GLC 产品(GLC-2015),分辨率为 30 米。我们提出的融合方法旨在解决之前 30 米 GLC 产品之间的不一致性,并生成一幅映射性能优于任何候选地图的地图,通过在地方尺度上评估这些现有产品的映射精度,选择最可信的土地覆盖(LC)类别。为实现这一目标,我们首先进行了可靠性评估,其中每个 LC 类别在每个地理网格中的每个产品的准确性被视为创建基本概率分配(BPA)函数的证据概率。然后,根据邓普斯特组合规则融合来自不同产品的所有 LC 类别的 BPA 值。最后,在将最大组合概率质量的最终接受 LC 类别分配给每个 30 米像素后,整合了 GLC-2015 地图。 GLC-2015 地图分别使用两种不同的验证集进行了验证,即全球点基样本和全球块基样本,并与现有产品进行了比较。此外,我们提供了 GLC-2015 在高映射不一致区域与其他 GLC 产品相比的映射改进分析。GLC-2015 地图被证明是准确和可信的,并且可以显著提高高不一致区域的映射准确性。
2 个数据集
2.1 多类 GLC 产品
三种现有的 30 米 GLC 产品,包括 GlobeLand30、FROM_GLC 和 GLC_FCS30,被用作基于 DSET 的融合输入图。它们的详细信息总结见表 1。
GlobeLand30 是一个广泛使用的全球地理信息产品,采用基于 POK 的方法,利用 Landsat 和 HJ-1 卫星影像制作而成。Globeland30 产品可以在网站上免费访问(http://www.globalland30 . org,最后访问时间:2023 年 4 月 15 日),涵盖 2000 年和 2010 年。从准确性评估来看,2010 年的 Globeland30 整体准确率超过
80.0
%
80.0
%
80.0% 80.0 \% ,使用了大量样本(Chen et al., 2015)。尽管 GlobeLand30 的数据时间为 2010 年,与其他产品有 5 年的时间差,但由于时间间隔造成的土地覆盖变化区域相较于全球土地面积而言微乎其微,因此仍被使用。此外,由于土地覆盖变化引起的不确定性相对较小,低于由于分类不准确引起的不确定性(Xu et al., 2014)。现有地图之间的大多数空间不一致主要是分类错误,而不是时间间隔内的土地覆盖变化(McCallum et al., 2006;See et al., 2015)。 来自 GLC 的首个 30 米 GLC 产品是利用众多 Landsat 影像生成的,具有两级结构的精细分类系统。通过对完整测试样本的验证,其总体准确率
(
OA
)
(
OA
)
(OA) (\mathrm{OA}) 为
64.5
%
64.5
%
64.5% 64.5 \% ,在同质区域的测试样本子集上为
71.5
%
71.5
%
71.5% 71.5 \% (龚等,2013)。
GLC_FCS30 是使用 Landsat 时间序列数据和来自 GSPECLib 的大量训练样本开发的。它具有两级分类方案,包含 16 个全球 LCCS 土地覆盖类别和 14 个详细的区域土地覆盖类别。根据 LCCS 一级验证方案,GLC_FCS30 的整体准确率达到了
71.4
%
71.4
%
71.4% 71.4 \% (Zhang 等,2021)。
2.2 单类 GLC 产品
为了提高融合结果的质量,还使用了一套具有 30 米精细分辨率的单一类别高质量 GLC 产品。与多类别 GLC 产品相比,这些单一类别 GLC 产品更有可能提供准确的信息,因为它们通常专注于提升特定土地覆盖类别的制图性能。这些产品包括全球森林变化(GFC)(Hansen 等,2013 年)、全球年度城市动态(GAUD)(X. Liu 等,2020 年)、联合研究中心的全球地表水(JRC GSW)(Pekel 等,2016 年)和全球红树林监测(GMW)(Bunting 等,
2022 年)。虽然这些单类产品是年度或多时期的,但我们仅选择了 2015 年的这些产品。这些单类产品的背景信息被视为参与融合的另一种土地覆盖类别(例如,非水域)。背景信息的准确性默认为 0,因为它没有提供关于我们分类系统中其他九个类别的任何信息。表 1 还描述了这些选定单类 GLC 产品的信息。
GFC 是通过对生长季节 Landsat 影像进行时间序列分析而得出的,旨在提供关于全球树冠范围、增益和损失的信息,空间分辨率为 30 米。准确性评估在全球和气候领域尺度上进行,森林增益的总体准确率达到了
99.6
%
99.6
%
99.6% 99.6 \% ,而全球森林损失达到了
99.7
%
99.7
%
99.7% 99.7 \% (Hansen 等,2013)。截至目前,它的临时覆盖范围为 2000 年至 2020 年。 GAUD 提供了 1985 年至 2015 年间的 30 米年度城市范围,使用了大量的 Landsat 影像,通过数据融合方法和时间分割方法在 GEE 平台上生成。产品开发者在不同的城市生态区域和全球范围内进行了验证。1985 年至 2000 年期间城市化年份的映射准确率为
76.0
%
76.0
%
76.0% 76.0 \% ,2000 年至 2015 年期间在全球湿润地区的准确率为
82.0
%
82.0
%
82.0% 82.0 \% (X. Liu et al., 2020)。 JRC GSW 数据集提供了 1984 年至 2015 年全球地表水变化的月度展示,分辨率为 30 米。利用专家系统、可视分析和证据推理来检测水域范围和变化。基于全球 40124 个验证点和 32 年的数据,确定了委托精度,整体精度为
99.45
%
99.45
%
99.45% 99.45 \% (主题制图仪 - TM)、
99.35
%
99.35
%
99.35% 99.35 \% (增强主题制图仪 Plus
ETM
+
ETM
+
ETM+ \mathrm{ETM}+ )、和 99.54%(OLI - 操作性土地成像仪),遗漏精度反映在整体精度为
97.01
%
97.01
%
97.01% 97.01 \% ™、
95.79
%
95.79
%
95.79% 95.79 \% (ETM+)和
96.25
%
96.25
%
96.25% 96.25 \% (OLI)(Pekel 等,2016)。我们在 GEE 目录中使用了 GSW 年度水分类历史 v1.1。每幅图像中都有一个“waterClass”波段,提供了水的季节性,分为四类:无数据、无水、季节性水和永久水。由于 GSW 数据中的季节性水不如永久水可靠(Meyer 等,2020),我们选择了永久水体并排除了季节性水体。 GMW 数据集是 GMW 计划的结果,该计划旨在提供关于红树林范围的一致信息。2010 年的全球红树林地图作为基准地图生成,采用极端随机树分类器对先进陆地观测卫星(ALOS)相控阵 L 波段合成孔径雷达(PALSAR)和 Landsat 图像进行分类。全球共评估了 53878 个样本点,基准地图的整体准确率达到了
95.3
%
95.3
%
95.3% 95.3 \% ,生产者的准确率达到了
94.0
%
94.0
%
94.0% 94.0 \% (Bunting 等,2018)。基于 2010 年的基线,已建立 1996 年至 2016 年间六个时期的红树林分布图,并从 2018 年起进行年度变化监测。
2.3 国家级土地覆盖产品
关注国家层面的土地覆盖产品更有可能具有更高的准确性,因为它们是由对国家土地覆盖类别有良好了解的专家制作的。因此,2016 年美国大陆地区的国家土地覆盖数据库(NLCD 2016)(Yang et al., 2018)、中国的土地利用/覆盖数据集(CLUD)(Liu et al., 2014)2015 年数据,以及 2015 年的年度中国土地覆盖数据集(CLCD)(Yang and Huang, 2021)也被纳入了融合。这些国家级产品的详细信息列在表 1 中。
NLCD 2016 数据库提供了 2001 年至 2016 年间每 2 或 3 年一次的连续和准确的土地覆盖和变化信息,基于像素和对象的方法以及有效的后分类过程(Yang et al., 2018)。NLCD 2016 数据库在 2016 年的整体准确度为
90.6
%
90.6
%
90.6% 90.6 \% 和
86.4
%
86.4
%
86.4% 86.4 \% ,适用于 CONUS(Wickham et al., 2021)。CLUD 是通过使用 Landsat 影像的数字解译方法开发的,提供了 1980 年代至 2015 年间中国的土地覆盖信息。CLUD 的整体准确度在一级和二级土地覆盖类别中分别达到了
94.3
%
94.3
%
94.3% 94.3 \% 和
91.2
%
91.2
%
91.2% 91.2 \% (Liu et al., 2014)。CLCD 是通过从 CLUD 和 Landsat 时间序列中获得的稳定训练样本生成的。经过 5463 个验证样本的评估,CLCD 获得了整体准确度
79.31
%
79.31
%
79.31% 79.31 \% (Yang and Huang, 2021)。
2.4 全球基于点和基于补丁的样本
在本研究中,我们收集了两组全球样本,即基于点的全球样本和基于块的全球样本。为了高效地收集具有代表性和充足的样本,我们将世界陆地面积划分为
4
∘
×
4
∘
4
∘
×
4
∘
4^(@)xx4^(@) 4^{\circ} \times 4^{\circ} 个地理网格。总共有 1507 个网格均匀分布在全球,如图 1 所示。
为了推导全球基于点的样本,我们在每个网格中采用了分层随机抽样。分层随机抽样依赖于土地覆盖产品中各类的面积比例。我们使用 FROM_GLC 作为先验知识,而不是 Globeland30 和 GLC_FCS30,主要基于两个考虑。 (1) FROM_GLC 与我们的目标地图(GLC-2015)具有相同的数据时间,而 Globeland30 与我们的样本之间有 5 年的间隔,这影响了每个土地覆盖类的样本大小。 (2) FROM_GLC 的 10 个一级土地覆盖类与 GLC-2015 的分类系统相似,而 GLC_FCS30 在分类方案和土地覆盖类的定义上与 GLC-2015 存在差异。首先,使用 FROM_GLC 产品来
图 1. 全球
4
∘
×
4
∘
4
∘
×
4
∘
4^(@)xx4^(@) 4^{\circ} \times 4^{\circ} 地理网格的空间分布。使用六个尺寸为
0.25
∘
0.25
∘
0.25^(@) 0.25^{\circ} 的黑色矩形块进行我们产品与其他三个产品的视觉比较。 计算每个 LC 类别的面积比。然后,根据每个类别的面积比和空间位置,从 FROM_GLC 中随机提取点。最终,收集了超过 200000 个全球样本。通过上述采样方法,全球基于点的样本在全球范围内均匀分布,并且每个网格中的每个类别都有足够的样本。因此,对于面积比小的类别,在
4
∘
×
4
∘
4
∘
×
4
∘
4^(@)xx4^(@) 4^{\circ} \times 4^{\circ} 网格中可以轻松获得超过 50 个点。FROM_GLC 对某些 LC 类别的准确性较低,特别是对农田和森林(Gao 等,2020;L. Liu 等,2021;Zhang 等,2021,2022)。如果从 FROM_GLC 中提取带有 LC 类别标签的全球样本,将不可避免地出现错误。因此,FROM_GLC 仅用于确定每个类别样本的大小和位置。相反,所有点都是根据 Google Earth 高分辨率图像手动标记的。整个样本集被随机分成两个子集:
80
%
80
%
80% 80 \% 的全球样本用于评估每个 GLC 产品在全球范围内和每个网格中对各种 LC 类别的准确性。 剩余的
20
%
20
%
20% 20 \% 用于验证 GLC2015 地图和不同产品之间的数据比较。图 2 展示了全球基于点的样本的分布以及用于准确性评估和数据比较的子集。
为了验证 GLC-2015 与地方尺度上实际景观模式的一致性,我们还建立了全球基于斑块的样本。采用简单随机抽样方法在全球陆地面积和不同生态区中提取
5
km
×
5
km
5
km
×
5
km
5kmxx5km 5 \mathrm{~km} \times 5 \mathrm{~km} 个区块,因为这种方法易于执行,并能够增加目标区域的样本量(Pengra 等,2020)。由于当前 GLC 地图之间的不一致性往往出现在异质区域,如破碎区域和过渡带,我们稍微增加了异质景观区域的样本量,以更好地评估我们的制图结果。总共有 201 个区块被选为全球基于斑块的样本,如图 3a 所示。然后,对于每个基于斑块的样本区块,我们使用 ArcGIS 10.5 软件。
图 2. (a) 全球基于点的样本的空间分布和 (b) 用于准确性评估和数据比较的全球基于点的样本子集;每个土地覆盖类别的比例在饼图中显示。 提取不同大小的多边形(补丁),以捕捉高分辨率图像上的真实景观。同时,每个多边形都手动标记了一个土地覆盖(LC)类别。图
3
b
3
b
3b 3 b 和 c 展示了基于补丁样本的四个示例。
三种方法
在本研究中,我们提出了一种多源产品融合方法来生成 GLC-2015 地图。该过程主要包括基于 Dempster-Shafer 证据理论(DSET)的融合、精度评估和数据比较,如图 4 所示。本研究的基础是基于 DSET 的多源产品融合。融合方法在像素级别进行,涉及以下三个主要步骤。(1) 构建每个像素的基本概率分配(BPA)函数,考虑各种产品的精度评估,属于每个土地覆盖(LC)类别。(2) 使用 Dempster 组合规则计算每个像素每个类别的组合概率质量。(3) 通过决策规则确定每个像素最终接受的 LC 类别。随后,将确定的 LC 类别的像素整合以生成新地图。对于大规模或全球土地覆盖制图,之前的研究者将研究区域划分为多个子区域,并在每个子区域内进行分类,使用 GEE(Gong et al., 2020; X. Liu et al., 2020; Huang et al., 2021; Jin et al., 2022; Zhang et al., 2021; Zhao et al., 2021)。 子区域的形状和大小在之前的工作中有所不同,例如边长为
2
∘
2
∘
2^(@) 2^{\circ} 的六边形和大小为
1
∘
×
1
∘
,
3.5
∘
×
3.5
∘
,
5
∘
×
5
∘
1
∘
×
1
∘
,
3.5
∘
×
3.5
∘
,
5
∘
×
5
∘
1^(@)xx1^(@),3.5^(@)xx3.5^(@),5^(@)xx5^(@) 1^{\circ} \times 1^{\circ}, 3.5^{\circ} \times 3.5^{\circ}, 5^{\circ} \times 5^{\circ} 或
10
∘
×
10
∘
10
∘
×
10
∘
10^(@)xx10^(@) 10^{\circ} \times 10^{\circ} 的地理网格。在决定子区域的大小时,应考虑两个重要因素。每个子区域中的样本大小应足够,以确保不会遗漏稀有的土地覆盖类型。另一方面,由于内存限制,无法在我们想要的那么大的子区域内实施制图工作。为了确定合适的大小,我们测试了不同大小的子区域(见补充材料中的表 S1)。结果表明,将研究区域划分为
4
∘
×
4
∘
4
∘
×
4
∘
4^(@)xx4^(@) 4^{\circ} \times 4^{\circ} 个网格效果最佳。因此,我们将全球陆地面积划分为
15074
∘
×
4
∘
15074
∘
×
4
∘
15074^(@)xx4^(@) 15074^{\circ} \times 4^{\circ} 个地理网格。整个框架在 GEE 平台上的所有
4
∘
×
4
∘
4
∘
×
4
∘
4^(@)xx4^(@) 4^{\circ} \times 4^{\circ} 个地理网格中实施。
3.1 分类系统的定义
在本研究中,我们采用了包含 10 个土地覆盖类型的分类系统,包括农田、森林、草地、灌木丛、湿地、水体、苔原、不透水表面、裸地和永久性雪冰(Chen et al., 2015),如表 2 所示。由于不同的应用需求,
图 3. 全球基于补丁样本的空间分布及选定示例。面板(a)显示了
5
km
×
5
km
5
km
×
5
km
5kmxx5km 5 \mathrm{~km} \times 5 \mathrm{~km} 个基于补丁的样本位置,四个选定样本的位置用红色虚线圆圈表示。面板(b)和(c)展示了基于手动解读的全球基于补丁样本的生成。2015 年左右高分辨率图像中的红线是使用 ArcGIS 10.5 软件进行矢量化的结果。四个相应的基于补丁的样本显示在面板(c)中。 现有的 GLC 产品和国家级 LC 产品采用了不同的分类系统(表 S2-S3)。GlobeLand30 使用了一个简单的分类系统,仅包含 10 个一级类。与 GlobeLand30 不同,FROM_GLC 和 GLC_FCS30 采用了两级分类方案。通过对这些系统的分析,我们发现分类系统并不相同,但有一些共识。尽管某些类别的定义有所不同,GlobeLand30 和 FROM_GLC 中都有 10 个主要类别。此外,与 GlobeLand30 和 FROM_GLC 相比,GLC_FCS30 的 0 级分类系统缺少苔原。然而,在 GLC_FCS30 的 2 级详细 LC 类别中,地衣和苔藓与苔原之间几乎没有区别。
根据 LC 翻译表(表 S2-S3),2015 年的 FROM_GLC 和 GLC_FCS30、CLUD 的原始 LC 类别,以及 2016 年的 NLCD,已根据相似性转换为 10 个目标土地覆盖类别 LC 定义。请注意,在我们的分类系统中,农田被定义为用于食品生产和动物饲料的土地面积。因此,FROM_GLC 的二级类别中的牧场被转换为农田,而不是草地。此外,GLC_FCS30 的二级详细分类系统中的地衣/苔藓被转换为苔原。
3.2 GLC-2015 制图的多源产品融合
DSET 是一种广泛应用于多源数据融合的有效方法。为了生成新的高质量 GLC 地图,提出了一种使用 DSET 的多源产品融合方法。在第 3.2 节的其余部分,我们介绍了该理论的概述,并展示了 DSET 在我们的制图过程中的应用。
图 4. 基于 DEST 的多源产品融合方法生成 GLC-2015 地图的框架。
表 2. 本文采用的分类系统。
ID
LC 类别
定义
10
耕地
用于食品生产和动物饲料的土地面积。
20
森林
树木覆盖的土地区域,树冠覆盖率超过
30 %
30 % 30% 30 \% ,以及稀疏的树木和树
树冠覆盖率在 之间
10 %
10 % 10% 10 \% 和
30 %
30 % 30% 30 \% 。
Land areas dominated by trees with tree canopy cover over 30%, and sparse trees with tree
canopy cover between 10% and 30%. | Land areas dominated by trees with tree canopy cover over $30 \%$, and sparse trees with tree |
| :--- |
| canopy cover between $10 \%$ and $30 \%$. |
30
草原
自然草地覆盖率超过
10
%
10
%
10% 10 \% 的土地区域。
40
灌木丛
以灌木为主的土地面积,覆盖率超过
30 %
30 % 30% 30 \% ,包括山地灌木、落叶植物
灌木、常绿灌木和沙漠灌木,覆盖在上
10 %
10 % 10% 10 \% 。
Land areas dominated by shrubs with a cover over 30%, including mountain shrubs, deciduous
shrubs, evergreen shrubs, and desert shrubs with a cover over 10%. | Land areas dominated by shrubs with a cover over $30 \%$, including mountain shrubs, deciduous |
| :--- |
| shrubs, evergreen shrubs, and desert shrubs with a cover over $10 \%$. |
50
湿地
以湿地植物和水体为主的陆地区域。
60
水体
积累液态水的土地区域。
70
苔原
极地地区以地衣、苔藓、难以生存的多年生草本植物和灌木为主的土地。
80
不透水表面
覆盖有人工结构的土地区域。
90
光秃的土地
植被稀少、覆盖率低于
10
%
10
%
10% 10 \% 的土地区域。
100
永久雪和冰
永久积雪、冰川和冰盖主导的陆地区域。
ID LC class Definition
10 Cropland Land areas used for food production and animal feed.
20 Forest "Land areas dominated by trees with tree canopy cover over 30%, and sparse trees with tree
canopy cover between 10% and 30%."
30 Grassland Land areas dominated by natural grass with a cover over 10%.
40 Shrubland "Land areas dominated by shrubs with a cover over 30%, including mountain shrubs, deciduous
shrubs, evergreen shrubs, and desert shrubs with a cover over 10%."
50 Wetland Land areas dominated by wetland plants and water bodies.
60 Water bodies Land areas covered with accumulated liquid water.
70 Tundra Land areas dominated by lichen, moss, hardly perennial herb, and shrubs in the polar regions.
80 Impervious surfaces Land areas covered with artificial structures.
90 Bare land Land areas with scarce vegetation with a cover lower than 10%.
100 Permanent snow and ice Land areas dominated by permanent snow, glacier, and ice cap. | ID | LC class | Definition |
| :---: | :---: | :---: |
| 10 | Cropland | Land areas used for food production and animal feed. |
| 20 | Forest | Land areas dominated by trees with tree canopy cover over $30 \%$, and sparse trees with tree <br> canopy cover between $10 \%$ and $30 \%$. |
| 30 | Grassland | Land areas dominated by natural grass with a cover over $10 \%$. |
| 40 | Shrubland | Land areas dominated by shrubs with a cover over $30 \%$, including mountain shrubs, deciduous <br> shrubs, evergreen shrubs, and desert shrubs with a cover over $10 \%$. |
| 50 | Wetland | Land areas dominated by wetland plants and water bodies. |
| 60 | Water bodies | Land areas covered with accumulated liquid water. |
| 70 | Tundra | Land areas dominated by lichen, moss, hardly perennial herb, and shrubs in the polar regions. |
| 80 | Impervious surfaces | Land areas covered with artificial structures. |
| 90 | Bare land | Land areas with scarce vegetation with a cover lower than $10 \%$. |
| 100 | Permanent snow and ice | Land areas dominated by permanent snow, glacier, and ice cap. |
3.2.1 邓普斯特-谢弗证据理论
DSET 是由 Dempster 和 Shafer 开发的,它是贝叶斯概率理论的扩展。该理论将来自不同数据源的信息视为独立证据,并将这些证据整合在一起,而不需要先验知识。在融合过程中,我们假设一个分类过程,其中所有输入数据都被分类为互斥的类别。设这些类别的集合
Ω
Ω
Omega \Omega 为判别框架。
2
Ω
2
Ω
2^(Omega) 2^{\Omega} 是
Ω
Ω
Omega \Omega 的幂集,包含所有类别及其可能的并集。我们定义函数
m
:
2
Ω
→
[
0
,
1
]
m
:
2
Ω
→
[
0
,
1
]
m:2^(Omega)rarr[0,1] m: 2^{\Omega} \rightarrow[0,1] 为 BPA 函数,当且仅当它满足
m
(
∅
)
=
0
m
(
∅
)
=
0
m(O/)=0 m(\varnothing)=0 和
∑
A
⊆
2
Ω
m
(
A
)
=
1
∑
A
⊆
2
Ω
m
(
A
)
=
1
sum_(A sube2^(Omega))m(A)=1 \sum_{A \subseteq 2^{\Omega}} m(A)=1 ,其中
∅
∅
O/ \varnothing 表示空集。对于每个类别
A
⊆
2
Ω
,
m
(
A
)
A
⊆
2
Ω
,
m
(
A
)
A sube2^(Omega),m(A) A \subseteq 2^{\Omega}, m(A) 称为基本概率质量,可以从 BPA 函数计算得出,表示对类别
A
A
A A 的支持程度或对类别
A
A
A A 的信心。
融合的目的是评估和整合来自多个来源的信息。在 DSET 中,这些多源数据被视为不同的证据,并提供不同的评估。为了生成所有证据,Dempster-Shafer 证据理论提供了一条规则。假设
m
i
(
B
j
)
m
i
B
j
m_(i)(B_(j)) m_{i}\left(B_{j}\right) 是从 BPA 函数为每个输入数据
i
i
i i 计算的基本概率质量,
1
≤
i
≤
n
1
≤
i
≤
n
1 <= i <= n 1 \leq i \leq n 适用于所有类别
B
j
∈
2
Ω
B
j
∈
2
Ω
B_(j)in2^(Omega) B_{j} \in 2^{\Omega} 。Dempster 的组合规则用于从不同证据中计算组合概率质量。融合规则在方程(1)和(2)中给出。
m
(
C
)
=
∑
B
1
∩
B
2
…
∩
B
n
=
C
1
≤
i
≤
n
m
i
(
B
j
)
1
−
k
m
(
C
)
=
∑
B
1
∩
B
2
…
∩
B
n
=
C
1
≤
i
≤
n
m
i
B
j
1
−
k
m(C)=(sum_(B_(1)nnB_(2)dots nnB_(n)=C1 <= i <= n)m_(i)(B_(j)))/(1-k) m(C)=\frac{\sum_{B_{1} \cap B_{2} \ldots \cap B_{n}=C 1 \leq i \leq n} m_{i}\left(B_{j}\right)}{1-k} ,
k
=
∑
B
1
∩
B
2
…
∩
B
n
=
∅
∏
1
≤
i
≤
n
m
i
(
B
j
)
k
=
∑
B
1
∩
B
2
…
∩
B
n
=
∅
∏
1
≤
i
≤
n
m
i
B
j
k=sum_(B_(1)nnB_(2)dots nnB_(n)=O/)prod_(1 <= i <= n)m_(i)(B_(j)) k=\sum_{B_{1} \cap B_{2} \ldots \cap B_{n}=\emptyset} \prod_{1 \leq i \leq n} m_{i}\left(B_{j}\right) ,
其中
k
k
k k 代表与证据源之间冲突相关的基本概率质量。
C
C
C C 是所有类别
B
j
B
j
B_(j) B_{j} 的交集,并携带所有输入数据的联合信息。组合后,我们采用决策规则来决定我们最终接受的类别。有几种方法可以通过简单地选择具有最大信念、可能性、支持或共性的类别来决定最终类别。
3.2.2 基于 DSET 的映射
在这里,我们展示了在 DSET 框架下对 GLC-2015 映射的实现。第 2 节中描述的所有 GLC 产品和国家级产品被选为要合并的输入地图。在多源产品的整合中,由于我们分类系统中的所有土地覆盖类别都是已知的,因此判别框架被定义为我们的分类系统。
Ω
=
Ω
=
Omega= \Omega=
{
cropland, forest, grassland,
shrubland, wetland, water bodies,
tundra, impervious surfaces, bare land,
permanent snow and ice
}
cropland, forest, grassland,
shrubland, wetland, water bodies,
tundra, impervious surfaces, bare land,
permanent snow and ice
{[" cropland, forest, grassland, "],[" shrubland, wetland, water bodies, "],[" tundra, impervious surfaces, bare land, "],[" permanent snow and ice "]} \left\{\begin{array}{l}\text { cropland, forest, grassland, } \\ \text { shrubland, wetland, water bodies, } \\ \text { tundra, impervious surfaces, bare land, } \\ \text { permanent snow and ice }\end{array}\right\} BPA 函数的定义是应用 DSET(Rottensteiner 等,2005)的关键点。在融合中,我们希望实现每个像素分类为 10 个土地覆盖(LC)类别之一:农田、森林、草地、灌木丛、湿地、水体、苔原、不透水表面、裸地和永久性雪和冰。对于每个产品,计算了每个 LC 类别的准确性,并用作构建 BPA 的证据概率。鉴于
4
∘
×
4
∘
4
∘
×
4
∘
4^(@)xx4^(@) 4^{\circ} \times 4^{\circ} 网格的局部准确性无法充分反映实际的土地覆盖景观,特别是对于稀有的 LC 类别,因此在 BPA 的构建中纳入了全球准确性,以避免从局部角度带来的不确定性。由于基于局部样本的评估在局部网格的 BPA 构建中起着更关键的作用,因此应为局部准确性分配更高的权重。为了确定最佳权重,我们测试了局部准确性的不同权重(见补充材料中的图 S1)。结果表明,使用
75
%
75
%
75% 75 \% 表现稳健,并获得了相对较高的整体准确性。因此,我们选择
75
%
75
%
75% 75 \% 作为局部准确性的权重,
25
%
25
%
25% 25 \% 作为全球准确性的权重。在这里,我们将 BPA 函数定义如下:
m
i
(
T
j
)
=
PA
local
(
i
j
)
+
UA
local
(
i
j
)
2
×
75
%
+
PA
global
(
i
j
)
+
UA
global
(
i
j
)
2
×
25
%
m
i
T
j
=
PA
local
(
i
j
)
+
UA
local
(
i
j
)
2
×
75
%
+
PA
global
(
i
j
)
+
UA
global
(
i
j
)
2
×
25
%
{:[m_(i)(T_(j))=(PA_("local "_((ij)))+UA_("local "_((ij))))/(2)],[ xx75%+(PA_("global "_((ij)))+UA_("global "_((ij))))/(2)xx25%]:} \begin{aligned}
m_{i}\left(T_{j}\right) & =\frac{\mathrm{PA}_{\text {local }_{(i j)}}+\mathrm{UA}_{\text {local }_{(i j)}}}{2} \\
& \times 75 \%+\frac{\operatorname{PA}_{\text {global }_{(i j)}}+\mathrm{UA}_{\text {global }_{(i j)}}}{2} \times 25 \%
\end{aligned}
其中
m
i
(
T
j
)
m
i
T
j
m_(i)(T_(j)) m_{i}\left(T_{j}\right) 代表证据的 BPA 功能
证据源
i
i
i i 在 LC 类别
T
j
T
j
T_(j) T_{j} 下,对于每个
4
∘
×
4
∘
4
∘
×
4
∘
4^(@)xx4^(@) 4^{\circ} \times 4^{\circ} 地理网格的生产者精度和用户精度分别为
PA
global
(
i
j
)
PA
global
(
i
j
)
PA_("global "_((ij))) \mathrm{PA}_{\text {global }_{(i j)}} 和
UA
global
(
i
j
)
UA
global
(
i
j
)
UA_("global "_((ij))) \mathrm{UA}_{\text {global }_{(i j)}} ,而证据源
i
i
i i 在 LC 类别
T
j
T
j
T_(j) T_{j} 下的生产者精度和用户精度在全球范围内。
为了估计
PA
local
(
i
j
)
,
UA
local
(
i
j
)
PA
local
(
i
j
)
,
UA
local
(
i
j
)
PA_("local "_((ij))),UA_("local "_((ij))) \mathrm{PA}_{\text {local }_{(i j)}}, \mathrm{UA}_{\text {local }_{(i j)}} 、
PA
global
(
i
j
)
PA
global
(
i
j
)
PA_("global "_((ij))) \mathrm{PA}_{\text {global }_{(i j)}} 和
UA
global
(
i
j
)
UA
global
(
i
j
)
UA_("global "_((ij))) \mathrm{UA}_{\text {global }_{(i j)}} 的确切值,我们使用了第 2.3 节中获得的超过 160000 个全球基于点的样本的
80
%
80
%
80% 80 \% 。一旦我们获得了
m
i
(
T
j
)
m
i
T
j
m_(i)(T_(j)) m_{i}\left(T_{j}\right) 的测量值,基于 Dempster 组合规则评估了每个被分类为 LC 类
T
j
T
j
T_(j) T_{j} 的像素的组合概率质量
m
(
T
j
)
m
T
j
m(T_(j)) m\left(T_{j}\right) ,通过融合所有证据源的 BPA 值:
m
(
T
j
)
=
∑
T
1
j
∩
T
2
j
…
∩
T
n
j
=
T
j
∏
1
≤
i
≤
n
m
i
(
T
j
)
1
−
k
m
T
j
=
∑
T
1
j
∩
T
2
j
…
∩
T
n
j
=
T
j
∏
1
≤
i
≤
n
m
i
T
j
1
−
k
m(T_(j))=(sum_(T_(1j)nnT_(2j)dots nnT_(nj)=T_(j))prod_(1 <= i <= n)m_(i)(T_(j)))/(1-k) m\left(T_{j}\right)=\frac{\sum_{T_{1 j} \cap T_{2 j} \ldots \cap T_{n j}=T_{j}} \prod_{1 \leq i \leq n} m_{i}\left(T_{j}\right)}{1-k} ,
k
=
∑
T
1
j
∩
T
2
j
…
∩
T
n
j
=
∅
∏
1
≤
i
≤
n
m
i
(
T
j
)
k
=
∑
T
1
j
∩
T
2
j
…
∩
T
n
j
=
∅
∏
1
≤
i
≤
n
m
i
T
j
k=sum_(T_(1j)nnT_(2j)dots nnT_(nj)=O/)prod_(1 <= i <= n)m_(i)(T_(j)) k=\sum_{T_{1 j} \cap T_{2 j} \ldots \cap T_{n j}=\varnothing} \prod_{1 \leq i \leq n} m_{i}\left(T_{j}\right) ,
其中
k
k
k k 代表与冲突相关的基本概率质量,
n
n
n n 代表输入地图的总数,
m
i
(
T
j
)
m
i
T
j
m_(i)(T_(j)) m_{i}\left(T_{j}\right) 代表来自第
i
i
i i 个 LC 地图的某个像素属于 LC 类
T
j
T
j
T_(j) T_{j} 的基本概率质量。
此外,给定了一个信念度量(Bel),用于衡量在结合所有可用证据时,被标记为最终接受的 LC 类别的像素的可信度。
信念测量是通过以下方式确定的
Bel
(
T
j
)
=
∑
T
i
j
⊆
T
j
m
i
(
T
j
)
Bel
T
j
=
∑
T
i
j
⊆
T
j
m
i
T
j
Bel(T_(j))=sum_(T_(ij)subeT_(j))m_(i)(T_(j)) \operatorname{Bel}\left(T_{j}\right)=\sum_{T_{i j} \subseteq T_{j}} m_{i}\left(T_{j}\right)