这是用户在 2024-9-8 21:24 为 https://app.immersivetranslate.com/pdf-pro/1df8dbd5-bced-4500-8f01-538831752aa1 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
2024_09_08_33dc807a42336af01225g


通过协调中国多个土地覆盖产品改善森林覆盖映射

 \作者{

施力梦 , 庸庞 𝟘 , 程全黄 和 曾源李


感知与信息系统,国家林业和草原局,北京,中国;地理科学系,


马里兰大学帕克分校,美国马里兰州

}

 摘要


高分辨率土地覆盖产品在许多地区变得越来越可用。然而,这些产品可能无法满足许多应用的质量要求。本研究提供了一种通过利用现有产品和清晰视角的 Landsat 合成图来改善土地覆盖制图的方法。使用独立参考数据集的评估显示,采用该方法在中国获得的 CAF-LC30 2020 产品比四个现有土地覆盖产品更准确。在中国东北地区,其与实地观察的整体准确性比四个现有土地覆盖产品高 ,在中国范围内则高 。它在许多现有土地覆盖产品存在较大分类错误的地区提供了更准确的土地覆盖类型表示。使用 CAF-LC30 2020 计算的中国大陆 31 个省、自治区和直辖市(PARM)的森林面积与最近的国家森林清查(NFI)调查报告的面积相关性更好,而不是使用其他四个现有土地覆盖产品计算的面积。 因此,CAF-LC30 2020 产品应该是理解 2020 年中国森林的更好替代方案,而不是其他四个现有的土地覆盖产品。

 文章历史

 收到日期:2022 年 4 月 16 日

接受日期:2022 年 9 月 8 日

 关键词


土地覆盖产品;森林;集成;Landsat;中国

 介绍


作为地球表面的关键描述指标,土地覆盖(LC)与全球变化研究及广泛应用密切相关(Townshend 1994)。虽然许多地球系统过程受到土地覆盖的空间分布和/或时间动态的影响或驱动,但土地覆盖也受到自然过程和人类活动的影响(Foley et al. 2005)。因此,土地覆盖产品是理解全球变化驱动因素和过程所需的基本数据集之一(Wulder et al. 2018),并推动生态学、环境科学、资源管理和可持续发展领域的研究和应用(Townshend et al. 2012;Andrew, Wulder, 和 Nelson 2014)。

自 1970 年代首颗 Landsat 卫星发射以来,遥感已成为土地覆盖研究的主要数据来源(Townshend 1992;Foody 2002)。得益于遥感数据源、算法研究和计算能力的进步,土地覆盖制图能力已从地方扩展到国家和全球范围(Hansen 和


洛夫兰德 2012)。在对全球土地覆盖进行 1 度(DeFries, Hansen, 和 Townshend 1995)和 8 公里分辨率的开创性努力之后(DeFries et al. 1998),开发了多个 1 公里或亚公里分辨率的土地覆盖产品,这些产品使用了先进的高分辨率辐射计(AVHRR)获取的观测数据(Hansen et al. 2000;Loveland et al. 2000)、中分辨率成像光谱仪(MODIS)(Friedl et al. 2002, 2010;Tateishi et al. 2011)、植被(Bartholome 和 Belward 2005)以及中分辨率成像光谱仪(MERIS)(Arino et al. 2007, 2008;Bicheron et al. 2008)。虽然这些粗分辨率产品在支持全球尺度的气候和其他模型方面非常有价值,但它们无法为许多与人类活动相关的单个土地覆盖斑块(例如城市、农田、池塘等)提供有用的信息,这些斑块通常小于这些土地覆盖产品的分辨率。

通过 NASA 的全球土地调查(GLS)计划创建全球 Landsat 数据集以供公众使用的努力(Tucker, Grant, 和 Dykstra 2004; Gutman 等)。

带来了在全球土地覆盖制图中实现亚公顷空间分辨率的机会。基于 GLS 数据集开发的示例产品包括早期的基于 Landsat 的全球土地覆盖地图(Chen et al. 2015; Gong et al. 2013)、森林覆盖变化产品(Feng et al. 2016; Kim et al. 2014; Sexton et al. 2015, 2013)和城市不透水性产品(Brown de Colstoun et al. 2017)。Landsat(Woodcock et al. 2008; Wulder et al. 2012; Zhu et al. 2019)、Sentinel-1 和 Sentinel-2 项目采用的免费数据政策,以及对强大云计算系统(如 Google Earth Engine(GEE)、Amazon Web Services(AWS)、Microsoft Azure 和 Descartes Labs(Yang et al. 2017))的低成本或无成本访问,极大地提高了在全球范围内生成 10 到 30 米空间分辨率土地覆盖产品的可行性。在过去十年中,Hansen et al.(2013)利用 GEE 和 Landsat 数据绘制了自 2000 年以来的森林范围和森林覆盖变化。Pekel et al.(2016)通过清单和国家描述、统计外推和卫星影像量化了 1984 年至 2015 年全球地表水的变化。Zhang et al. 利用全球特征光谱库制作了一套全球 30 米精细分类地图(GLC_FCS30)。刘等(2021)开发了 1985-2020 年的全球 30 米年度到季节性土地覆盖地图,整体分类准确率约为 80%。通过利用 Sentinel-1 和 Sentinel-2 提供的比 Landsat 更细的空间分辨率,龚等(2019)为 2017 年制作了全球 10 米分辨率的土地覆盖产品。最近还发布了另外两个全球 10 米土地覆盖产品,一个是由欧洲航天局(ESA)发布的(Zanaga 等,2021),该产品使用 Sentinel-1 和 Sentinel-2 数据绘制了 2020 年的地图,包含 11 种土地覆盖类型,全球整体准确率为 ;另一个是由环境系统研究所(ESRI)发布的(Karra 等,2021),该产品通过深度学习分类算法从 2020 年的 Sentinel-2 影像中提取,包含 10 个类别,在验证集上达到了 85.9%的整体准确率。

全球高分辨率土地覆盖产品的激增是土地覆盖研究取得良好进展的一个指标,但在同一地区拥有多个产品可能会给许多用户带来困惑,因为这些产品之间往往存在显著的分歧。例如,宋,


黄和汤申德(2017)分析了 6 种全球土地覆盖产品,空间分辨率从 250 米到 1 公里不等,发现这些产品在森林分布方面存在较大分歧。弗里茨、希和伦博尔德(2010)显示,不同的土地覆盖产品不仅在像素级别上存在显著差异,还导致了从国家到大陆尺度的耕地面积估算非常不同。这些分歧是现有一些土地覆盖产品不确定性的指标。这种不确定性通常在比较多时相土地覆盖产品以识别土地覆盖变化时导致过度的虚假变化(弗里德尔等,2010;弗里德尔和苏拉-梅纳谢,2019)。减少这些不确定性的一种方法是通过使用更好的训练数据、更准确的分类算法、更少噪声的输入和更多的预测变量来提高类别可分离性,从而生成新产品。或者,现有土地覆盖产品之间的差异和相似性也可能对改善土地覆盖制图有帮助。例如,荣等人。 (2006)通过整合多个全球土地覆盖产品创建了一个 1 公里的联合土地覆盖图。Fritz 等人(2011)开发了一种协调多个土地覆盖产品的方法,包括全球土地覆盖图(GLC-2000)(Bartholomé和 Belward,2005)、MODIS 土地覆盖产品(MOD12V1)(Friedl 等,2002)、GlobCover(Bicheron 等,2008)、MODIS 作物可能性(Pittman 等,2010)和 AFRICover 数据集(https://www.fao.org/3/bd854e/bd854e.pdf),以提高非洲 1 公里分辨率的农田制图。Song 等人(2014)开发了一种基于机器学习的数据融合方法,以协调多个土地覆盖数据集,从而提高 5 公里空间分辨率的森林覆盖制图。

本研究的主要目标是开发一种方法,利用现有土地覆盖产品之间的差异和互补性,以改善亚公顷空间分辨率下的森林覆盖制图。在该方法中,2000 年至 2020 年间的多个现有土地覆盖产品(即 GlobeLand30、GLC_FCS30 和 ChinaCover,详见表 1)被协调并用于定义一个交集图,该图包含了这些产品在土地覆盖类型上达成一致的像素。我们证明了这些像素的类别标签在多个类别中具有很高的准确性,因此只使用了其中的一部分。

表 1. 用作土地覆盖制图方法输入的 30 米土地覆盖产品列表。
 产品名称

可用数据年份 层数
 输入数据
 分类系统

一级土地覆盖类型
 组织  源文本
 全球土地 30 2000 2010 2020

Landsat-TM / ETM + / OLI HJ-1 A/B
 10 个一级班

耕地、森林、草原、灌木丛、湿地、水体、苔原、人造表面、裸地、永久雪和冰

中国国家地理信息中心

http://www.globallandcover.com/ home_en.html
GLC_FCS30 2000 2015 2020

Landsat-TM / ETM + / OLI

30 秒级课程

中国科学院
https://data.casearth.cn/en/
 中国封面 2000 2010 2015

Landsat-TM / ETM+ HJ-1 A/B

6 个一级 38 个二级 课程

森林土地,草原,农田,湿地,建设用地,其他土地

中国科学院

http://www.geodata.cn/data/ index.html?ownername=%E5%90%B4%E7%82%B3%E6%96%B9

为了训练机器学习算法,以分类使用改进的图像合成方法创建的清晰视图图像。现有的土地覆盖产品也被用来定义森林的最大空间范围,然后用于减少后处理过程中森林与其他土地覆盖类型之间的混淆。我们采用这种方法制作了 2020 年中国范围内的 30 米森林覆盖图(CAF-LC30 2020),并对该产品及其他四个为 2020 年开发的土地覆盖产品进行了全面评估。

 数据

 Landsat 图像


在本研究中,我们使用了来自 GEE 平台的 Landsat 8 OLI 表面反射率图像,这些图像的云覆盖率为 。大多数图像是在 2020 年获取的。然而,有一些极其多云的区域在 2020 年没有无云观测,因此包含了 2019 年和/或 2021 年的图像以创建清晰的合成图。这些区域总体上较小,总共占中国总面积的不到 5%。


现有土地覆盖产品


三组土地覆盖产品(即 GlobeLand30、GLC_FCS30 和 ChinaCover)被用作映射算法的输入。每组包含为三个不同年份制作的土地覆盖地图(表 1)。这些土地覆盖产品由不同的团队使用不同的分类系统开发。


GlobeLand30 数据集有 10 种广泛的土地覆盖类型(Chen et al. 2015),多项评估研究表明整体准确率超过 (Brovelli et al. 2015;Arsanjani, Tayyebi 和 Vaz 2016;Chen 和 Chen 2018);(2)基于 DataCube 数据结构和全球光谱库 SPECLib(时空光谱库)开发的 GLC_FCS30 产品套件报告的准确率为 82.5%(Zhang et al. 2019, 2021)。该产品套件在某些地区将一些广泛类别细分为更详细的类别,总共形成 30 个类别;(3)ChinaCover 数据集使用了基于联合国气候变化框架公约(UNFCCC)开发的分类系统设计的分类方案,包括 6 个一级类别和 38 个二级类别,报告的准确率在独立随机抽样评估中为一级 和二级 (Wu et al. 2017)。

在我们项目接近尾声时开始评估通过本研究得出的 CAF-LC30 2020 产品时,两个新的 2020 年土地覆盖产品相继发布。一个是由武汉大学生成的中国土地覆盖数据集(CLCD-2020)(杨等,2021)。另一个是由欧洲航天局(ESA)制作的 10 米世界覆盖土地覆盖图(Zanaga 等,2021),以下简称为 ESA10-2020。我们使用通过本研究收集的参考数据对这两个产品在中国的质量进行了独立评估。

 参考数据


使用了两组参考数据,以提供对 CAF-LC30 2020 地图的像素级评估和四个


其他现有的地图,包括 GlobeLand30-2020、GLC_FCS30-2020、CLCD-2020 和 ESA10-2020。

第一组数据包括在 2020 年收集的现场数据,覆盖了分布在中国东北三省(黑龙江、吉林和辽宁)中的 8,895 个现场调查样地。这一数据集(以下简称东北中国参考数据集)还涵盖了东部内蒙古的一部分(见图 1(右))。该数据集中的样地位于可达道路 2 公里范围内,以实现可接受的数据收集效率。然而,事先定义了几个要求,以确保所选样地在东北中国尽可能均匀分布,并且收集的数据具有代表性。例如,不能从同一个土地覆盖对象(例如一个大型水库或一个大型同质森林斑块)中选择超过一个样地,且两个具有相同土地覆盖类型的样地之间不得距离小于 2 公里。为了确保所有县都有代表性,每个县至少应有 210 个样地。为了减少在任何给定位置确定土地覆盖类型时的潜在模糊性,样地应从不小于 的同质区域中选择,最好大于 。 在每个样地位置收集的现场数据包括 GPS 坐标、现场照片以及地表条件和土地覆盖类型的描述。现场识别出七种土地覆盖类型,包括耕地、林地、草地、湿地、水体、人造表面和裸地。

第二个参考数据集包括由中国陆地生态系统研究网络(CTERN)选择的永久性样地,这些样地由不同生态系统类型的生态站组成,包括森林、农田、草地、灌木地、湿地、水域和城市(图 1(左))。CTERN 样地呈正方形,面积范围从 。截至本研究,CTERN 数据集主要由森林样地组成。选择 CTERN 样地时考虑的关键因素包括湿度和温度梯度、森林类型和地点质量。此外,所有森林样地与国家森林清查(NFI)项目使用的网格重合,以确保 CTERN 站点尽可能均匀分布。尚未建立全国代表性的非森林生态系统 CTERN 站点网络。

NE-China 和 CTERN 数据集在评估本研究开发的森林覆盖图方面具有很强的互补性。NE-China 数据集对整个中国东北地区进行了密集采样。大多数类别的样本量为

图 1. 2017 年至 2020 年 CTERN 样地的空间分布(左)和东北中国参考数据集中的样地(右)。

表 2. 提供 CAF-LC30 2020 年和四个为 2020 年开发的现有土地覆盖产品的像素级评估的田野样地数量。
 参考数据集名称  耕地  森林  草原  湿地    无懈可击  光秃土地  总计
 东北中国 4,120 2,377 474 349 341 1,158 76 8,895
CTERN 5 2,294 70 102 315 23 4 2,813
 总计 4,125 4,671 544 451 656 1,181 80 11,708

足以为中国东北地区提供满意精度的协议指标(表 2)。虽然 CTERN 数据集在农田、裸地和不透水表面方面的样本很少,但它包含了超过 2000 个样本,代表了中国大部分森林生态系统,因此非常适合评估本研究中这些森林的绘制效果。

除了上述参考数据集,我们还获得了中国国家林业和草原局(NFGA)报告的省级森林面积估算。这些估算是基于通过中国的国家森林资源调查(NFI)项目收集的清查数据得出的。NFI 项目成立于 1970 年代,每五年产生一次森林清查数据。 NFI 在 2014 年至 2018 年间进行,为中国大陆 31 个省、自治区和直辖市(PARM)提供了森林面积估算(见表 A2)。这些估算用于评估从不同土地覆盖产品计算的森林面积,包括通过本研究产生的 CAF-LC30 2020 地图和 2020 年可用的四个现有土地覆盖产品。 显示在 2014-2018 年间,国家森林覆盖率为 。除了天然林和人工林外,NFI 项目考虑的森林面积还包括冠层密度超过 的阔叶林和竹林。在某些地区(中国西北部的大部分半干旱/干旱地区),一些冠层密度超过 的灌木区域也被归类为森林用地。

图 2. CAF-LC30 2020 产品的开发和评估工作流程。

 方法


制作 CAF-LC30 2020 地图的方法包括四个主要步骤:i) 图像准备,ii) 初步土地覆盖分类;iii) 后处理和最终地图生成;iv) 精度评估(图 2)。最终产品和四个现有的 2020 年土地覆盖产品使用参考数据集进行了评估。

 图像准备


此步骤的主要目标是生成 2020 年的清晰视图图像合成。由于大多数地区频繁的云层覆盖,获取任何特定区域的无云图像通常具有挑战性。多时相合成是一种常见的方法,用于为大面积生成无云影像产品(Roy et al. 2010; Griffiths et al. 2013; White et al. 2014; Hermosilla et al. 2015; Zhu et al. 2015; Wulder et al. 2016)。在本研究中,我们遵循了 White 等人(2014)提出的最佳可用像素(BAP)算法来生成无云影像。该算法使用一系列评分来表示在不同日期像素中获取的观测质量,包括叶子生长季节的年内天数、不透明度以及与云和云阴影的距离。选择总分最高的观测用于最终图像合成。然而,我们注意到使用这种方法创建的一些图像合成在应该相对均匀的区域内存在图像颜色的突变(图 A2)。 为了缓解这个问题,我们开发了一种加权可用像素(WAP)方法,该方法利用 BAP 方法计算的分数结合所有可用观测值,以确定用于合成图像的像素值。该方法的详细描述见(Meng et al. 2022)。

我们在 GEE 平台上实施了 WAP 方法,并利用它生成了以中国各地区的生长季节高峰期为中心的清晰视图合成图像。输入图像包括 2020 年在中国获取的所有 Landsat 8 OIL 表面反射率图像,这些图像的云覆盖率为 。使用 Fmask 算法(Zhu 和 Woodcock 2014a, 2014b)对云和云影进行了掩膜。然而,少数极其多云的区域(占中国总面积的不到 )需要使用 2019 年和/或 2021 年的图像来清除使用 2020 年数据创建的合成图像中的残余云。

考虑到中国广阔的领土,各地的生长高峰季节存在显著差异。为了考虑这些地理差异,我们将全国划分为七个子区域。图 3 显示了这些区域的大致边界。生长高峰日和日期范围的

图 3. 覆盖中国大陆及本研究中用于考虑生长季节和生长高峰日日期范围的 7 个子区域(I 到 VII)的 311 个瓦片的空间分布(左)。每个瓦片覆盖 2.1 度×2.1 度的区域,与相邻瓦片有 0.1 度的重叠(右)。

表 3. WAP 方法用于 7 个子区域的生长季节的生长峰日和日期范围。
 区域 ID
 位置
 增长峰值日

生长季节的日期范围
I  东北  八月
六月 -九月 15
II    七月
六月 -九月 30 日
III
 西北(北部)
 七月
六月 -九月
IV
 西北(南部)
 七月
六月 -九月 30 日
V  中央  七月
五月 -十月 15 日
VI  西南  七月  五月 -十一月
VII  南方  七月
四月 -十一月 30

每个子区域的生长季节,根据 WAP 方法的要求,已在表 3 中指定。在生长季节的日期范围内获取的所有图像都作为 WAP 算法的输入。

输出图像合成包含 6 个光谱波段(蓝色、绿色、红色、近红外、短波红外 1 和短波红外 2 波段)和三个光谱指数(归一化差异植被指数(NDVI)、归一化差异水体指数(NDWI)和归一化烧伤比率(NBR))。这些合成图被划分为 2.1 度 度的瓦片,相邻瓦片之间在地理投影中重叠 0.1 度。这导致需要总共 311 个瓦片以提供对中国大陆的完整覆盖(图 3)。


初始土地覆盖分类


初始分类是使用随机森林(RF)算法生成的(Breiman 2001)。许多研究已经证明了该算法在区域、国家和全球尺度上进行土地覆盖制图的稳健性(Nguyen et al. 2020; Sales et al. 2021; Ebrahimy et al. 2021)。该算法似乎对错误标记的训练数据或其他低级随机噪声不太敏感(Mellor et al. 2015; Pelletier et al. 2017),即使在训练样本量减少 或多达 的训练样本发生土地覆盖变化时,也能产生稳定的结果(Gong et al. 2019)。

该算法所需的训练样本是基于表 1 中描述的土地覆盖产品得出的。由于这些产品是使用不同的分类系统开发的,类别是根据不同的标准定义的,因此我们在本研究中使用了 GlobeLand30 产品套件的分类方案。中国覆盖和 GLC_FCS30 产品的更详细的土地覆盖类型被聚合,以根据表 A1 中定义的规则创建这 10 个类别。结合 GlobeLand30 产品套件,这导致总共生成了 9 个土地覆盖图(见表 A1),它们具有相同的 10 类分类方案。需要注意的是,由于森林训练样本是从 9 个土地覆盖产品的交集区域中选择的,因此森林类别的冠层覆盖阈值是由具有最严格阈值的产品确定的,该值为 。因此,本研究中的森林类别包括以树木(包括乔木和稀疏林)为主的森林土地,冠层覆盖至少为

土地覆盖图随后被重新投影并切割成与 Landsat 影像合成图的 311 个瓦片相匹配的瓦片。对于每个瓦片,我们基于 9 个土地覆盖产品制作了两张地图。一张是森林类别的联合图。在这张地图中,如果至少有一个土地覆盖产品将该像素分类为森林,则该像素具有森林类别标签。这张联合图在后处理阶段用于定义最终 CAF-LC30 2020 产品中森林分布的最大范围。另一张是交集图,其中包括所有 9 个土地覆盖产品在每个像素位置具有相同类别标签的像素。这些像素随后使用两个参考数据集进行评估,结果表明这些像素的类别标签非常可靠。因此,基于交集图构建了训练 RF 算法所需的样本。

对于每个瓦片,从交集图中选择了每个类别最多 10,000 个随机样本。这些样本用于训练每个瓦片的局部随机森林模型。以往的研究表明,使用多个局部分类模型通常会比使用单一的全局分类器在大面积土地覆盖制图中产生更好的地图产品(Gong et al. 2013; Zhang and Roy 2017; Zhang et al. 2020)。本研究中使用的训练样本大小是根据文献启发式确定的。Foody(2009)发现分类准确性与训练样本大小呈正相关,但在训练样本大小超过某个阈值后会饱和。Zhu et al.(2016)提出,对于一个 Landsat 场景( ),最佳训练数量为 像素。


在本研究中,我们发现每个类别 10,000 个样本的训练规模足以训练每个瓦片的随机森林模型。对于训练数据不足的瓦片(即某个类别的像素少于 10,000),训练样本是从目标瓦片周围的 8 个相邻瓦片中选择的。

对于每个瓦片,我们构建了五个随机森林模型。每个模型使用从为该瓦片开发的训练数据集中随机选择的 个样本训练了 500 棵决策树,并使用剩余的 个样本进行评估。产生最佳结果的随机森林模型用于生成该瓦片的初始分类图。


后处理和最终地图生成


由于我们的目标是制作改进的森林覆盖图,我们主要集中在使用给定的土地覆盖产品通过多数投票策略来改善森林类别,在后分类处理过程中(图 4)。根据对初始随机森林分类图的广泛视觉评估,我们注意到一些像素( )在以非森林类型为主的区域,如农田、草地或灌木丛,被错误分类为森林(误报)。另一方面, 个像素在主要森林区域被错误分类为非森林(漏报)。之前基于 9 个输入土地覆盖图生成的并集和交集图被用来减少这些错误。


森林的最大范围可以通过森林类别的联合图来定义。位于联合区域外的真实森林像素非常少(不到 5%)。因此,(1) 位于森林类别交集图中的像素被标记为森林,无论 RF 分类的结果如何;(2) 对于位于交集区域外但在联合区域内的像素,其土地覆盖类型是基于四个最接近 2020 年的土地覆盖层的多数投票来确定的(即 GlobeLand302020、GLC_FCS30-2020、中国覆盖-2015 和初始 RF 分类图)。对于没有明确多数的像素,使用初始 RF 分类结果;(3) 位于联合区域外的像素根据同样的四个土地覆盖层的多数投票重新标记。如果某个像素位置没有多数,则选择 RF 分类的类别标签。然而,如果该像素被 RF 算法标记为森林,则会根据 GlobeLand302020 进行重新分类,因为它通常被认为比其他两个产品套件更可靠。

 产品评估


最终的 CAF-LC30 2020 产品使用 NE-China 和 CTERN 参考数据集进行了评估,以得出像素级一致性指标。在省级层面,我们比较了计算得出的森林面积。

图 4. 用于生成最终 CAF-LC30 2020 产品的后处理规则流程图。仅使用了与 2020 年最接近的四个土地覆盖层(即 GlobeLand30-2020、GLC_FCS30-2020、中国覆盖-2015 和 RF 分类图)进行多数投票过程。


使用该产品与 NFI 项目报告的估算进行比较。为了进行比较,这些评估还应用于四个为 2020 年开发的现有土地覆盖产品,包括在本研究中用作输入的 GlobeLand30-2020 和 GLC_FCS30-2020,以及在本研究结束时可用的 CLCD-2020 和 ESA10-2020。像素级评估是在 30 米分辨率下进行的。ESA10-2020 数据集使用简单多数法从 10 米重采样到 30 米。

在像素级别,我们使用两个参考数据集为每个产品计算了混淆矩阵。根据混淆矩阵,计算了一系列一致性指标,包括总体准确率(OA)、类别特定用户准确率(UA)和生产者准确率(PA)。由于本研究中使用的参考数据中的样本并不是按照基于概率的抽样方法选择的(Stehman 1999, 2000),我们不知道两个参考数据集中各个样本的纳入概率,因此在使用标准准确性估计方程计算准确性指标时,假设每个数据集中所有样本的纳入概率相同(Congalton 1991; Olofsson et al. 2014)。因此,本研究中报告的准确性值应作为土地覆盖产品与可用参考数据之间一致性水平的指标,而不是使用按照基于概率的抽样方法选择的参考样本估计的“真实准确性”。

在省级层面,我们使用 CAF-LC30 2020 和四个现有的 2020 年土地覆盖产品计算了中国大陆 31 个 PARM 的森林覆盖率。这些森林覆盖估计值随后与 报告的值进行了比较(表 A2)。

 结果


现有土地覆盖产品的差异与互补性


总体而言,本研究中使用的三组输入土地覆盖产品的 9 幅地图提供了中国森林覆盖率的相对一致的估计,范围从 (图 5)。但在耕地(18.01%-25.48%)、草地(22.21%-29.88%)、裸地( )和灌木地( )的面积比例方面,它们的变异性更大。其他所有土地覆盖类型的总比例很小( 或更少)。虽然 ChinaCover 产品套件在 2000 年至 2015 年之间相对稳定,但 GlobeLand30 和 GLC_FCS30 提供的覆盖率估计却有所不同。


图 5. 使用 GlobeLand30(a-c)、GLC_FCS30(d-f)和 ChinaCover(g-i)计算的中国土地覆盖比例,适用于不同年份。


产品套件在某些土地覆盖类型上随时间变化更为明显。例如,GlobeLand30 报告的裸地百分比从 2000 年的 下降到 2010 年的 ,而同一时期草地的百分比从 增加到 。GLC_FCS30 报告的耕地从 下降到 ,草地从 增加到

通过使用 9 个输入土地覆盖产品得出的交集图显示,这些产品在中国大陆的 个区域内相互一致(图 6)。这些区域主要是森林( )、农田( )、草地( )和裸地( )。对于几个类别,交集区域内的大多数像素在交集图中被正确分类。在中国东北,位于农田类别交集区域内的 NE-China 参考数据集中, 个样地是农田样地。该一致性值为 ,森林、草地和不透水类的值分别为 。在中国,位于森林类别交集区域内的 CTERN 样地中,有 97%是真正的森林样地。由于湿地通常更难分类,因此该类别交集区域内的像素与两个参考数据集的一致性值较低。

我们定义了一个联合区域,包含所有至少被 9 个产品中的一个分类为森林的像素,并使用这个联合掩膜来减少森林与其他土地覆盖类型之间的混淆。在中国东北,NE-China 数据集中 的森林样地位于联合掩膜内。在中国范围内,联合区域包括 CTERN 数据集中 的森林样地。仅有 的两个参考数据集中的森林样地位于联合区域掩膜外,表明该掩膜在后分类处理过程中对限制森林的地理范围的有效性。由于未映射联合区域外的森林而可能产生的遗漏错误应该非常低。

图 6. 中国十种类型的 9 个输入土地覆盖产品之间的交集区域。


CAF-LC30 2020 产品相较于现有土地覆盖图的改进


根据方法部分描述的映射策略,我们为 2020 年制作了中国的森林覆盖图(图 7)。在像素和省级的评估中,结果显示该产品优于四个为同一年在中国开发的现有产品,包括 GlobeLand30-2020、GLC_FCS30-2020、CLCD-2020 和 ESA10-2020。

 像素级改进


在中国东北,CAF-LC30 2020 年地图在与分布在该地区的 8,895 个样地位置收集的实地数据比较时,在 置信区间下的总体精度(OA)为 (表 4)。它的表现显著优于其他四个土地覆盖产品在 置信区间下的 OA 值。这四个产品的 OA 值为


(GlobeLand30-2020), (GLC_FCS30-2020), (CLCD-2020),以及 (ESA102020)。此外,CAF-LC30 2020 地图在参考数据集中大多数类别中具有最高或第二高的用户准确率(UA)和生产者准确率(PA)。

在中国,CAF-LC30 2020 地图在全国范围内与 2,813 个 CTERN 样地的实地观察相比,具有更好的总体精度(OA)(表 5)。虽然所有五个产品在 2,294 个森林样地上与 CTERN 数据的用户精度几乎完美( ),但 CAF-LC30 2020 地图在森林类别的生产者一致性比其他四个现有产品高出 。除了 CLCD-2020 产品外,其他三个产品在 置信区间内的差异具有统计学意义。使用两个参考数据集得出的五个产品的混淆矩阵见表 A3-A12。

图 7. 最终 CAF-LC30 2020 地图的概览。黄色方块表示 7 个选定地点的大致位置,在图 8 中对该产品与其他四个产品进行了详细比较。

图 8. CAF-LC30 2020 年地图( 列)与四个现有土地覆盖产品( 列)以及清晰视图的 Landsat 合成图(第一列,Landsat 8 的 6、5、4 波段分别以红色、绿色和蓝色显示)在中国 7 个代表性地点的比较,这些地点分别代表北方森林(A)、温带大陆森林(B 和 G)、亚热带湿润森林( )以及热带森林(E)。7 个地点的大致位置如图 7 所示。

对中国不同森林区域的地图产品进行详细检查发现,每个现有产品在不同区域存在不同的问题(图 8)。GlobeLand30-2020 产品在多个地点将森林错误分类为草地(图 8A、8D 和 8F),ESA10-2020 产品也存在类似问题,CLCD-2020 产品的问题相对较轻。与其他产品相比,CLCD-2020 数据集高估了森林面积,导致一些非森林类别的细节缺失(图 8A、8B、8D 和 8F)。


GLC_FCS30-2020 产品对灌木林的高估(图 8E),尤其是在中国南方(图 A1(d-f))。该产品基于清晰视角的 Landsat 合成图和多个现有的土地覆盖产品,CAF-LC30 2020 地图似乎能够在图 8 中检查的 7 个地点提供更真实的土地覆盖细节表现。


省级改进


现有土地覆盖产品的一些问题在使用时更加明显

图 9. 中国大陆 31 个 PARM 的森林覆盖率与(a)CAF-LC30 2020,(b)GlobeLand30-2020,(c)GLC_FCS30-2020,(d)CLCD-2020 和(e)ESA10-2020 计算的森林覆盖率的比较。每个点代表一个 PARM,其颜色表示该 PARM 在中国的子区域(图 10)。


计算省级森林面积。使用 CAF-LC30 2020 计算的中国大陆 31 个 PARM 的森林覆盖百分比与 2014 年至 2018 年进行的 NFI 调查报告的百分比( ,rRMSE )相关性更好,而不是使用其他四个现有土地覆盖产品计算的百分比(图 9)。虽然 GlobeLand30-2020 在图 8 中检查的几个地点低估了森林,但这些地方问题对使用该产品得出的省级森林百分比估计影响不大。这些估计之间的关系


NFI 调查数据仅比从 CAF-LC30 2020 产品和 NFI 数据得出的估计之间的关系稍微差一些。需要注意的是,虽然使用 2020 年所有 5 个土地覆盖数据集得出的森林面积估计与 NFI 数据在一般情况下具有较高的 值相关(图 9),但每个产品的估计与 NFI 数据之间的线性拟合在统计上与 1:1 线存在显著差异(表 A13),这意味着这些估计与 NFI 数据之间的差异在统计上是显著的。与 NFI 数据相比,使用 CAF-LC30 产品计算的估计具有最低的均方根误差(RMSE)(图 9),这表明该产品在 PARM 级别上能够提供比其他四个产品更准确的森林覆盖估计。

不同土地覆盖产品得出的森林覆盖估计与国家森林调查(NFI)数据的比较显示,各个产品存在问题,并表现出某些区域模式(图 10)。例如,ESA10-2020 产品报告的森林百分比明显高于 NFI 和其他土地覆盖产品。


PARMs,包括重庆、四川、广东、广西、海南、浙江、湖北和湖南,大多数地区的森林覆盖率为 或更高。相反,GLC_FCS30-2020 产品在中国南方的三个省份(包括广东、广西和海南)将一些森林地 mapped 为灌木地或草地。值得注意的是,2020 年五个土地覆盖产品中的森林覆盖率与西北中国几个 PARM 的 NFI 数据相比被低估,包括位于西北的青海、宁夏和新疆,东部的上海、江苏和山东,以及北部的天津。这可能是由于 NFI 项目在某些情况下使用了更广泛的森林定义。例如,在干旱或半干旱地区(如位于西北中国的青海、宁夏和新疆),覆盖率为 的灌木地被归类为森林地,因为它们在生态保护中发挥了重要作用。

图 10. 比较 调查报告的省级森林覆盖估计(每个子图的第一列)与基于五种土地覆盖产品计算的估计(每个子图的第二到第六列)在中国大陆七个子区域的情况。


出于保护目的非常重要。具有重要经济价值且冠层覆盖率超过 30%的灌木类作物也被 NFI 归类为森林。对于像上海、江苏、山东和天津这样森林覆盖率极低的地区,将灌木作物归类为森林地可能是 NFI 报告的森林面积超过任何五个土地覆盖产品绘制的主要原因。

 讨论


产品丰富时代的机遇


全球 30 米或更高分辨率卫星数据集的免费访问,以及可负担或无成本的强大云计算系统,极大地提高了生产土地覆盖产品的可行性,这些产品能够捕捉许多土地覆盖对象的亚公顷空间细节,尤其是与人类活动相关的对象。现在,已经发布了几种全球细分辨率(即 10 米到 30 米)的土地覆盖产品(Chen et al. 2015; Zhang et al. 2019; Gong et al. 2019; Zanaga et al. 2021; Karra et al. 2021; Potapov et al. 2022; Friedl et al. 2022),全球大部分土地区域已经被多个产品覆盖。许多地区甚至有更多的产品可用,因为它们还被国家或地区特定的土地覆盖产品覆盖(Zhang et al. 2017; Manakos et al. 2018)。本研究表明,可以对多个现有的土地覆盖产品进行协调,以改善 30 米分辨率下的森林覆盖制图。

由三个不同的研究小组开发的九种输入土地覆盖产品在本研究中并没有高水平的一致性。在本研究考虑的分类层面上,这些产品在土地覆盖类型上对像素的共识不足 (图 6)。然而,这些像素的类别标签在多个类别中似乎非常准确( 的时间),包括森林、农田和不透水表面。因此,这些像素可以提供高质量的训练数据,以校准自动土地覆盖制图工作流程中的机器学习算法。虽然机器学习算法生成的土地覆盖图通常在许多土地覆盖类型之间存在相当大的混淆,因为这些类型之间缺乏足够的可分离性(Schneider, Friedl, 和 Potere 2010;Loosvelt 等 2012),但可以利用输入土地覆盖产品的互补性来减少一些混淆。 一方面,由于输入产品在交集区域内的像素已经被现有的土地覆盖产品准确分类,因此在这些区域内由机器学习算法生成的分类图的错误可以根据输入的土地覆盖产品进行解决。另一方面,包含所有至少有一个输入产品将这些像素分类为该类别的像素的类别的并集区域合理地定义了该类别的最大范围。根据本研究中使用的参考数据集,中国大多数森林像素( )位于 9 个输入土地覆盖产品为森林类别定义的并集区域内。因此,这个并集区域掩膜可以用来纠正掩膜区域外将非森林像素错误分类为森林的情况。由于这种修正可能产生的森林类别遗漏错误应该很低(在本研究中可能低于 5%)。


映射方法的优势及未来改进


本研究开发的森林覆盖制图方法旨在利用 9 个输入土地覆盖产品的交集和并集区域。结果显示,CAF-LC30 2020 地图的准确性显著高于 2020 年的四个现有土地覆盖产品,证明了该制图方法的有效性。我们的方法大大减少了输入土地覆盖产品在不同地区的分类错误。例如,GLC_FCS30 产品套件在中国南部和西南部映射了更多的灌木和更少的森林,而其他两个输入产品套件则相反。在中国东北,ChinaCover 产品套件的湿地数量明显更多。在干旱和半干旱的中国西北地区,三个产品套件之间也存在较大分歧(图 A1)。除了结果中报告的一致性指标外,对 CAF-LC30 2020 地图的全面视觉评估显示,它在这些地区以及许多其他现有土地覆盖产品存在明显错误的地区提供了更准确的土地覆盖类型表示。

因为我们的方法不需要当地提供的特定区域土地覆盖知识


专家们认为,这可以实现自动化,并用于改善全球任何地区的土地覆盖制图,特别是对于那些除了可用的全球土地覆盖产品外,还有一个或多个特定区域土地覆盖产品的国家。使用这种方法可以实现的改进程度在一定程度上将取决于输入土地覆盖产品的差异和互补性水平。一般来说,不同生产者开发的产品可能会比同一生产者开发的产品带来更多的改进,因为前者往往彼此更独立,因此可以更好地互补以改善土地覆盖制图。当输入的土地覆盖产品具有高度相似性或由同一生产者开发时,应谨慎处理。使用这些产品计算的交集和并集区域可能不如前面讨论的那样有价值,以改善土地覆盖制图。

我们的方法包括一种 WAP 图像合成方法,这是对 White 等人(2014)开发的 BAP 方法的改进。WAP 方法生成的清晰视图合成在 BAP 方法生成的斑驳区域看起来平滑自然(图 A2)。虽然在本研究中我们在每个地点仅为一个高峰生长季节日期生成了一个清晰视图合成,但 WAP 方法可以用于生成其他季节的合成。通过使用为多个季节创建的合成,可能会进一步改善森林覆盖映射,因为这些合成提供的季节信息可能提高森林与其他植被类型之间的可分离性(Homer 等,2004;Huang、Homer 和 Yang,2003)。此外,还可以使用其他辅助数据集来改善土地覆盖映射。例如,OpenStreet 数据集通常用于改善城市不透水区域的映射(Fan、Wu 和 Wang,2019;Grippa 等,2018;Zhong 等,2020)。自 2018 年以来,GEDI 和 ICESat-2 任务在全球范围内收集了密集的 LiDAR 测量样本(Dubayah 等,2020;Markus 等,2017)。 由于激光雷达可以提供高度准确的植被高度结构测量(Lefsky et al. 1999; Drake et al. 2002; Bater et al. 2011; Lee et al. 2011; Potapov et al. 2021),这些样本可以为改善森林覆盖图提供高质量的训练数据。

 结论


开发了一种方法,将现有的 LC 产品与清晰视图的 Landsat 合成图结合,以提高亚公顷空间分辨率下的森林覆盖映射。使用两个独立的参考数据集进行评估,结果显示,采用该方法在中国生成的 CAF-LC30 2020 产品比四个现有的土地覆盖产品更准确,其中包括两个未作为映射算法输入的产品。在东北中国,其与实地观察的总体精度(OA)比四个现有土地覆盖产品高 ,在中国其他地区则高 。对 CAF-LC30 2020 地图的全面视觉评估显示,它在现有土地覆盖产品存在较大分类错误的区域提供了更准确的土地覆盖类型表示。使用 CAF-LC30 2020 计算的中国大陆 31 个省、自治区和直辖市(PARM)的森林覆盖估计,与最近的 NFI 调查报告的数据相比,相关性更好,而使用其他四个现有土地覆盖产品计算的结果则较差。 因此,CAF-LC30 2020 产品应该是理解 2020 年中国森林的更好替代方案,而不是其他四个现有的土地覆盖产品。

随着在国家到全球范围内细分辨率土地覆盖产品的快速进展,许多地区很快将不会缺乏土地覆盖产品。然而,这并不意味着现有产品的质量足以满足特定应用的要求。本研究表明,可以通过利用现有产品来获得改进的产品。我们的方法提供了一个框架,用于整合现有土地覆盖产品、新获得的遥感观测和/或其他辅助数据源,以改善大区域的土地覆盖制图。

 致谢


CTERN 图由国家林业和草原科学数据中心提供,2020 年的实地工作数据由中国科学院东北地理与农业生态研究所的王宗明教授提供。包括石开元、范怡琳、闫明、孙向南和牛晓东在内的五名研究生协助数据准备。此项工作得到了研究基金的支持。


  1. 联系 Yong Pang pangy@ifrit.ac.cn


    (c) 2022 作者。由英福玛英国有限公司出版,作为泰勒与弗朗西斯集团交易。

    这是一个开放获取的文章,按照知识共享署名-非商业性使用许可协议的条款分发(http://creativecommons.org/licenses/by-nc/4.0/),允许在任何媒介中进行无限制的非商业性使用、分发和复制,前提是正确引用原作。