引用本文:李可威 & 许尔奇 (2020) 使用空间分析技术和谷歌地球引擎进行农田数据融合与校正,《地理信息科学与遥感》,57:8,1026-1045,DOI: 10.1080/15481603.2020.1841489
查看补充材料
在线发布:2020 年 10 月 28 日。
将您的文章提交到本期刊
文章浏览量:1936
查看相关文章
‹
查看 Crossmark 数据
引用文章:10 查看引用的文章
农田数据融合与修正,利用空间分析技术和谷歌地球引擎
李可威,
和 许尔奇
土地表面模式与模拟重点实验室,中国科学院地理科学与资源研究所 中国科学院,北京,中国;b 中国科学院大学,北京,中国
摘要
准确的农田数量和空间分布的区域识别对于农田监测、粮食安全和可持续区域发展至关重要。各国和组织已经生产了一系列土地覆盖产品。然而,遥感传感器、土地覆盖分类方案和分类方法之间的差异导致了不一致。在本研究中,我们开发了一种新方法,通过融合和校正四个农田产品:CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC,来提高“一带一路”(B&R)地区农田数据的准确性。实施空间分析技术,包括气候分层、一致性评估和统计过滤,以开发模型校正的训练样本。使用这些训练样本在谷歌地球引擎(GEE)平台上执行随机森林(RF)算法,以校正融合的多数据产品并生成校正后的 2015 年农田产品。校正后的产品表明,农田占“一带一路”地区的
,这一结果比四个单独土地覆盖产品的结果更接近于粮农组织(FAO)统计数据的结果。 在国家层面,修正后的耕地产品数量与粮农组织统计数据之间的均方根误差为
,相关系数值为 0.77。这表明该方法具有更好的拟合特性。通过 3112 个视觉解读样本和谷歌地球评估四个耕地产品与我们修正产品之间不一致区域的准确性。修正耕地产品在不一致区域的整体准确率为
。修正耕地产品所产生的最高准确率表明我们的方法的有效性,可以迅速提高异质区域的耕地数据准确性。结合通过融合现有耕地产品和更新技术产生的训练样本与来自 GEE 平台的多源遥感数据,我们预见到更新全球耕地产品的潜在应用。
文章历史
收到日期:2020 年 6 月 27 日 接受日期:2020 年 10 月 13 日
关键词
耕地;数据融合;谷歌地球引擎;一带一路地区
1. 引言
土地利用和土地覆盖(LULC)可以强烈影响人类社会、经济活动和自然生态(Allan 2004;Foley 等 2005)。LULC 变化影响地表环境和生态系统结构,进一步改变区域生态系统服务功能并增加区域生态风险(Jarnagin 2004;Maeda、Formaggio 和 Shimabukuro 2008)。绘制 LULC 及其变化展示了土地科学研究中地球系统变化的驱动因素(Verburg、Neumann 和 Nol 2011)。它还帮助政府决策和土地资源的可持续利用(Jin 等 2017)。
遥感、地理信息系统(GIS)技术的利用以及多源遥感数据集的使用已成为绘制土地利用/覆盖(LULC)的主要方法。自 1990 年代以来,许多国家和国际组织在区域和全球范围内应用了具有不同空间和时间分辨率的土地覆盖产品。这些包括产品验证、产品分析和产品协同(Fritz et al. 2011a; Hansen and Reed, 2000; Jung et al. 2006; Mayaux et al. 2006)。粗分辨率的土地覆盖产品包括 IGBP DISCover、GLC 2000 和 UMD(1 公里)、MODIS Collection 5(500 米)以及 CCI-LC、GlobCover(300 米分辨率)(Bartholome 和 Belward 2005; Bicheron et al. 2008; Friedl et al. 2010; Hansen et al. 2000; Loveland et al. 2000; Santoro et al. 2017)。中等分辨率的产品(30 米)包括 GlobeLand 30、GFSAD 30 和 FROM-GLC(Chen et al. 2015; Gong et al. 2013; Oliphant et al. 2019; Teluguntla et al. 2018)。由于数据大小、工作量等问题, 和图像信息提取(Gong et al. 2019),目前仅有少量高分辨率的土地覆盖产品在大范围内发布(仅有 FROM-GLC10,分辨率为 10 米)。尽管许多土地覆盖产品描述了地球表面,但产品之间的制图准确性和一致性限制了研究人员在许多应用中的使用(Fritz and See 2008)。
准确的全球和区域土地覆盖产品为研究全球变化、陆地表面过程模拟、生态文明建设和区域可持续发展提供了基本数据(GCOS. 2013)。然而,在异质区域,现有土地覆盖产品的低准确性和差一致性限制了它们在区域和全球范围内的应用。大量研究表明,空间异质性是导致整体低准确性的主要因素,这主要体现在一些混合类别中。(Congalton et al. 2014; Herold et al. 2008; Latifovic and Olthof 2004)。此外,例如,耕地的空间分布由于降水、光照时间、温度、农业政策和城市扩张等因素而不确定。现有土地覆盖产品在遥感器、时间和空间分辨率、土地利用/土地覆盖分类方案和分类方法方面表现出较差的一致性(Grekousis, Mountrakis, and Kavouras 2015)。 这些因素导致分类准确性存在差异,特别是在过渡区域,并进一步妨碍了土地覆盖产品在多种学科中的有效利用(Congalton et al. 2014; Fritz et al. 2011a; Herold et al. 2008)。
随着多源土地覆盖产品的日益丰富和开放获取,数据融合方法与统计技术的应用克服了现有土地覆盖产品的兼容性、可比性和准确性限制(Jung et al. 2006; Ran et al. 2012; See and Fritz 2006)。这些策略可以根据融合方法分为两种类型:地理加权回归(GWR)和融合决策规则。一些研究使用 GWR 预测土地覆盖空间分布的概率(Schepaschenko et al. 2015; See et al. 2015)。然而,训练样本的数量和采样密度决定了大区域内的分类准确性(Chen et al. 2012; Lu et al. 2014)。在融合决策规则中,多个模型,如贝叶斯理论(Gengler and Bogaert 2018; Xu et al. 2014)、邓普斯特-谢弗证据理论(Ran, Li, and Lu)等被使用。 2009 年)和模糊集理论(Perez-Hoyos, GarciaHaro 和 San-Miguel-Ayanz 2012)已被用于基于输入土地覆盖产品一致性生成协同土地覆盖产品。多项研究表明,原始土地覆盖产品的质量显著影响最终协同产品的准确性(Fritz et al. 2011b;Fritz et al.,2015)。此外,建立规则需要大量的先验知识和土地利用统计数据。当土地覆盖产品数量增加和研究区域扩大时,现有的数据融合方法可能会耗时且难以实施(Lu et al. 2017)。
收集训练样本的主要方法包括广泛的实地调查(Oliphant et al. 2019)、高分辨率遥感图像的视觉解译(Yu and Gong 2012)以及使用众包数据(如开放获取的 GIS 数据和地理维基)(Fritz et al. 2009)。但训练样本数量不足、分布不均以及难以实现频繁更新可能限制其在大区域的应用。一些研究从土地覆盖产品中提取训练样本;这些样本可以是自动的、充足的、广泛分布的,并且与多种土地覆盖类别相关(Huang et al. 2018;Jia et al. 2014;Radoux et al. 2014;Sexton et al. 2013;Wessels et al. 2016;Zhang and Roy 2017)。数学形态学和光谱特征是可以用来从土地覆盖产品中选择训练样本的方法。数学形态学用于对不同土地覆盖类别之间的边界像素进行空间滤波,特别是对于那些经常被误分类的类别。 该方法有助于减少土地覆盖产品与遥感数据之间的空间差异,但在景观破碎化严重的地区可能会出现训练样本提取不足的情况(Radoux et al. 2014; Sexton et al. 2013; Zhang and Roy 2017)。可以利用光谱特征去除异常像素(Huang et al. 2017; Radoux et al. 2014; Wessels et al. 2016)。然而,该方法并未显著提高分类准确性(Radoux et al. 2014; Wessels et al. 2016)。大多数研究都是从单一的土地覆盖产品中提取训练样本,而训练样本的可靠性容易受到分类错误和土地覆盖变化的影响。因此,我们提出了一种从多源土地覆盖产品中快速提取训练样本的方法,以提高可靠性和准确性。
传统的土地覆盖制图方法处理大量的遥感图像并收集大量的训练样本。这需要显著的时间,包括计算时间(Waldner 等,2015;Zhang, Feng 和 Yao,2014)。谷歌地球引擎(GEE)是一个专注于批量处理遥感图像(如 Landsat 和 Sentinel 系列)及其他地球科学数据的云计算平台(Gorelick 等,2017)。它帮助研究人员在云端访问和处理大量图像(Gorelick 等,2017)。通过结合从各种土地覆盖产品中提取的现有训练样本和更新方法,以及 GEE 平台强大的云计算能力和多源遥感数据,可以实现全球土地覆盖的长期系列制图。
在本文中,我们提出了一种使用空间分析技术的新型数据融合方法。该方法结合了多源土地覆盖产品和 GEE 平台的信息,快速生成 2015 年大区域(“一带一路”区域)高精度的耕地产品。首先,我们对四个耕地产品进行一致性分析,并从完全一致的区域生成过滤后的训练样本。其次,这些训练样本和随机森林(RF)算法利用大量卫星数据和 GEE 云计算修正不一致的区域。第三,使用联合国粮食及农业组织(FAO(2015))的耕地统计数据和来自谷歌地球的视觉解译参考样本来验证结果的可靠性。
2. 材料
2.1. 研究区域
“一带一路”区域包括 65 个国家,覆盖约 6300 万平方公里,横跨亚洲、欧洲和非洲三个大洲(见图 1)。受到“一带一路”倡议的启发,陆地区域重点关注三条路线:(1)从中国经中亚和俄罗斯到欧洲波罗的海;(2)从中国经中亚和西亚到波斯湾和地中海;(3)从中国到东南亚、南亚和印度洋。复杂多样的自然环境因素给该区域的土地覆盖制图带来了挑战(董等,2018)。2015 年,“一带一路”区域有 46 亿人口,占全球 74 亿人口的
(联合国人口司,2019)。
2.2. 数据
2.2.1. 土地覆盖产品
本研究使用 2015 年的土地覆盖产品(CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC),以及从粮农组织(FAO)获得的“一带一路”地区耕地统计数据(2015 年)。
气候变化倡议-土地覆盖(CCI-LC)产品包含空间分辨率的数据
图 1. 一带一路地区 65 个国家的位置和分布(图 1 中的基础图像来自世界地形图,Esri。蓝色部分代表海洋,其余部分代表陆地)。 从 1992 年到 2015 年,使用 MERIS、AVHRR、SPOTVGT 和 PROBA-V 数据集进行 300 米的研究。它使用 22 类联合国土地覆盖分类系统(LCCS)。30 米的全球粮食安全支持分析数据(GFSAD30)产品使用三级分类系统:水域、农田和非农田,这些分类基于 30 米空间分辨率的 Landsat ETM+/OLI 影像(Oliphant 等,2019;Teluguntla 等,2018)。MODIS 土地覆盖类型集合(MCD12Q1)使用 2001 年至 2018 年间的 MODIS 数据,空间分辨率为 500 米,并采用 17 类国际地圈-生物圈计划(IGBP)分类系统(Friedl 等,2010)。更高分辨率的观察与监测-全球土地覆盖(FROM-GLC)使用 30 米空间分辨率的 Landsat TM/ETM+影像,并采用包含 11 类的独特分类系统(Gong 等,2013)。四个土地覆盖产品在遥感器、分类方法、空间分辨率和分类方案上的差异导致了农田空间分布的不一致。因此,我们在“一带一路”地区使用了 2015 年的四个土地覆盖产品进行数据融合和修正(表 1)。
为了避免因像素位移造成的二次误差,所有数据均使用地理坐标系统(WGS84)定义,未进行投影。CCI-LC 边界用于统一每个网格位置,并最小化因四个土地覆盖产品(CCI-LC、GFSAD30、MCD12Q1 和 FROMGLC)之间存在不同边界而导致的栅格错位。此外,具有不同分辨率的产品应重新采样至相同的空间分辨率。在本研究中,我们将空间分辨率统一为与 CCI-LC 相同,并采用主要区域法整合离散的土地覆盖产品(Poulter 等,2015)。重新采样网格中的土地覆盖类别取决于原始网格中最大面积百分比(主导)贡献的类别(图 S1)。这四个土地覆盖产品大约被重新采样为
(300 米
)网格,并重新分配为两类:农田和非农田。
2.2.2. GEE 的 Landsat 30 米影像时间合成
本研究使用了来自 Landsat 7 ETM+和 8 OLI 传感器的正射校正表面反射率(SR)数据(L1T)Tier 1,在 GEE 中纠正土地覆盖产品之间的不一致区域。选择了 2014 年至 2016 年覆盖研究区域的无云像素图像作为数据源。Landsat 系列卫星提供了最长的可免费下载的地球卫星影像历史,适合大规模空间分析(Pekel 等,2016;Wulder 等,2016)。尽管 Landsat-7 扫描线校正器的故障导致每个场景约
的数据丢失(Markham 等,2004),但它弥补了东南亚和南中国等地区因季节性降雨造成的数据缺口(Irons, Dwyer 和 Barsi,2012)。通过使用每幅图像中的 CFMask 波段,去除了因云、冰、雪和阴影造成的低质量观测(Zhu 和 Woodcock,2012)。共使用了 12 个光学波段来组成图像集合,包括蓝色、绿色、红色、近红外(NIR)、短波红外(SWIR)1、SWIR 2 和热红外。
表 1. 四种土地覆盖产品概述。
产品
传感器
创作者
时间
CCI-LC
MERIS FR/RR, AVHRR, SPOT-VGT, PROBA-V
ESA
1992-2015
300 米
GFSAD 30
Landsat ETM+/OLI
USGS
2015
机器学习
30 米
3 个班级
MCD12Q1
MODIS
2001-2019
500 米
Landsat TM/ETM+
CESSC
30 米
11 个班级
注:CESSC,中国地球系统科学中心;ESA,欧洲航天局;FAO,粮食及农业组织;IGBP,国际地球圈-生物圈计划;USGS,美国地质调查局;MERIS,中分辨率成像光谱仪;FR/RR,全分辨率和降低分辨率;AVHRR,先进的非常高分辨率辐射计;SPOT,地球观测卫星;SPOT-VGT,SPOT-植被;PROBA-V,机载自主项目,V 代表植被;MODIS,中分辨率成像光谱仪;TM,主题映射仪;ETM+,增强型主题映射仪 Plus;OLI,操作性陆地成像仪。 波段(TIR)1 与多个植被指数(见方程(1)-(5))结合,包括归一化差异植被指数(NDVI)、增强植被指数(EVI)、归一化烧伤指数(NBR 2)、陆地表面水指数(LSWI)和绿色叶绿素植被指数(GCVI),用于分类(Dong et al. 2016; Oliphant et al. 2019; Teluguntla et al. 2018; Tian et al. 2019; Zhang et al. 2018)。地形数据如海拔和坡度在土地覆盖分类中非常有帮助(Benediktsson, Swain, and Ersoy 1990)。因此,使用来自 GEE 的 30 米航天雷达地形测量(SRTM)数字高程数据,以及从该数字高程模型中得出的坡度,以协助农田修正。
某些地区(如东南亚和中国南部)的阴天影响了 Landsat 影像的使用。为了确保足够的覆盖并减少云层覆盖的影响,我们使用了三个时期(时期 1:儒略日 1-120,时期 2:121-240,时期 3:241-365),2015 年 12 个波段的标准差,以及多年的(2014-2016)Landsat-7 和-8 SR 影像,对整个
地区进行影像合成(Oliphant 等,2019;Teluguntla 等,2018)。对于每个时期,12 个波段(蓝色、绿色、红色、近红外、短波红外 1、短波红外 2、热红外 1、NDVI、EVI、GCVI、LSWI 和 NBR 2)进行了合成,使用了该时期内像素的中位值。上述波段和指数的使用可以代表每个时期作物生长的物候信息。因此,对于 B&R 地区,三个时间段合成的 12 个中位值光学波段、2015 年 12 个光学波段的标准差、高程和坡度,得到了一个 50 波段的影像合成(图 S2)。
3. 耕地产品融合与修正方法
使用空间分析技术的数据融合方法包括六个阶段:(1)统一四个土地覆盖产品中耕地的定义;(2)根据气候特征将整个
区域分层为不同的子区域;(3)对四个土地覆盖产品进行一致性评估,以生成完全一致和不一致的区域;(4)从完全一致的区域提取训练样本,并根据双标准差范围标准(
标准)净化训练样本;(5)使用 Landsat 合成图和来自 GEE 的 RF 算法,结合在第 2 阶段生成的训练样本,修正整个一带一路区域的不一致区域;(6)使用 FAO(2015)耕地统计数据和 Google Earth 中测试样本的视觉解读,对修正后的耕地产品进行准确性评估(图 2)。
3.1. 耕地定义的统一
不同的耕地定义深度和广度在土地覆盖产品中(表 2)导致了耕地面积和空间分布的不一致。在进行数据融合和校正之前统一耕地定义可能会提高训练样本的准确性。
以下规则用于确定耕地的范围:(1) 在四个土地覆盖产品中选择了所有耕地类别(如雨养耕地和灌溉耕地、复杂耕地和马赛克耕地),(2) 识别出耕地比例超过
的类别为耕地,其余定义为非耕地。图 S3 显示了四个耕地产品(CCILC、GFSAD30、MCD12Q1 和 FROM-GLC)在统一的耕地和非耕地定义下的空间分布。
3.2. 研究区域的分层
气候因素和多种作物导致“一带一路”区域的光谱特征显著不同(Brown, Beurs, and Marshall 2012; Portmann, Siebert, and Döll 2010)。
图 2. 四种农田产品(CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC)数据融合和校正的流程图。
表 2. 根据四种土地覆盖产品的分类系统对耕地定义的比较。
产品
课程描述
规则
CCI-LC
雨养农田
耕地
耕地,灌溉或洪水后
马赛克农田 (
)/自然植被(树木、灌木、草本植物覆盖) (<50%)
马赛克自然植被(树木、灌木、草本植物)
封面) (
)
非-
耕地(<50%)
GFSAD30
耕地(耕地和耕地休耕)
耕地
MCD12Q1
耕地
农田/自然植被马赛克(小规模耕作 40-60%与自然树木、灌木或草本植物的马赛克。)
耕地
耕地(稻米、温室、其他)
耕地
因此,使用了柯本-盖根气候图,以提高对不一致区域进行修正的准确性和处理速度。该地图基于全球长期的月降水量和温度站数据(Peel et al., 2007)。表 S1 显示了如何根据月降水量或年降水量和温度计算气候类型。
我们使用了柯本-盖尔气候类型的第一类(如热带、干旱、温带、寒冷和极地区域)以及政治行政边界来对子区域进行适当调整。使用行政边界是因为我们认为同一国家内可能存在相似的作物和种植系统。具有相同气候类型第一类的相邻区域被合并为新的子区域。最终,
区域被划分为 11 个子区域(详细信息见图
)。后续步骤,如选择训练样本和修正不一致区域,也是在新划分的区域内单独进行的。
3.3. 土地覆盖产品的一致性分析
对四种农田产品的一致性评估旨在从现有产品中提取可靠信息,以进行融合和修正。对重采样和重新分类的土地覆盖产品(CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC)进行了栅格叠加。值为 1-3 表示不一致区域,其中一到三个农田产品将像素识别为农田。值为 4 和 0 表示完全一致区域(图 3)。前者表示所有四种农田产品将像素分类为农田,而后者表示所有四种农田产品将像素分类为非农田。我们假设四种农田产品(CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC)的完全一致区域可以被信任为真实的农田或非农田。不一致区域是不确定的,需要进行修正,如第 3.5 节所示。
图 3. 一带一路地区四种耕地产品 CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC 的一致性程度。
的值分别表示被分类为耕地的 1 到 4 种耕地产品,值为 0 表示被分类为非耕地的 4 种耕地产品。
传统的耕地制图方法需要大量的训练样本。在映射长时间序列和大规模土地覆盖产品时,这可能会耗费大量时间。此外,样本质量直接影响监督分类的准确性。本研究设计了一种新的样本提取和过滤方法。首先,从之前识别的完全一致区域中提取初始训练样本(四个耕地产品被分类为耕地或非耕地)。其次,采用随机抽样方法减少每个子区域内初始训练样本的密度,以便最终训练样本在研究区域内均匀分布。第三,在训练样本的中心建立
区域。使用 GEE 计算样本区域内所有影像波段的均值和方差。第四,基于统计原理,按照标准差降序排名后,约
的样本被移除,以减少混合像素的影响。 最后,使用
标准,基于 95%的置信概率进一步去除了异常值(详见图 S5),并将最佳耕地和非耕地训练样本导入 GEE,以修正不一致的区域。表 S2 显示了在
区域每个子区域中选择的耕地和非耕地样本数量。
3.5. 不一致区域的修正
为了纠正第 3.3 节中产生的不一致区域,使用了 GEE 平台的 RF 分类器来解释覆盖
区域的 50 波段无云影像集合。RF 分类器是一种集成多个决策树的机器学习分类器(Breiman 2001)。一些研究表明,RF 分类器的准确性高于许多其他分类器,并且对噪声不敏感(Pelletier 等,2016;Rodriguez-Galiano 等,2012)。例如,它有效地避免了在聚合过程结束时的过拟合,其分类速度相对较快,并且比分类和回归树更易于使用(Breiman 2001)。
通过反复实验和对波段组合的先前研究,我们选择了 12 个波段作为 RF 分类器的输入。这些波段包括蓝色、绿色、红色、近红外、短波红外 1、短波红外 2 和热红外 1,以及 NDVI、EVI、GCVI、LSWI 和 NBR 2。使用随机选择的 63%的训练数据创建了 300 棵树,每棵树的袋装数据和每次分裂的 50 个波段的平方根。样本区域的规模设置为 90 米,以减轻影响。 混合像素。所有的修正都针对不一致的区域,因为应用了一个遮罩,完全覆盖了一致的区域。最后,修正后的产品结合了四个农田产品(CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC)的完全一致区域和不一致区域的修正结果。
3.6. 准确性评估
3.6.1. 耕地面积评估
联合国粮农组织(FAO,2015)的统计数据用于评估四种耕地产品及我们修正后的产品在国家层面的耕地面积准确性。FAO 统计数据的来源基于国家普查、人工估算和农业生产者问卷(FAO,2015)。尽管 FAO 统计数据的质量因国家而异,但该数据集仍提供了全球最全面的农业数据,并每年更新(Vancutsem 等,2012)。为提高其质量,已采用多种程序(世界银行、FAO 和联合国统计委员会,2011)。一些研究已将 FAO 统计数据作为参考数据,以评估国家层面土地覆盖产品的准确性(Pérez-Hoyos 等,2017;Vancutsem 等,2012)。在本研究中,各国的耕地面积是根据 FAO(2015)统计中定义的“耕地”类别得出的。
各国的耕地面积分别使用四种耕地产品和修正后的耕地产品进行计算。然后确定每个国家耕地面积的比例。利用 FAO(2015)各国的耕地面积统计数据,计算统计数据中耕地的比例及其与四种耕地产品(CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC)及我们修正产品的比例之间的偏差(
)。通过计算耕地产品估算的耕地比例与 FAO 耕地统计数据之间的差异,反映了均方根误差(RMSE)。偏差(
)和 RMSE 的公式如下:
其中
是使用耕地产品计算的国家
的耕地面积比例,
是通过统计数据估算的国家
的耕地面积比例,
是所选国家的数量。
线性回归被用于反映耕地产品中耕地面积比例与 FAO 统计数据之间的拟合程度。较大的决定系数
表示耕地产品与 FAO 统计数据之间的拟合程度更高。
其中
表示线性回归后
的预测值,
和
分别是斜率和截距,
表示根据联合国粮农组织统计的耕地面积的平均比例。
3.6.2. 不一致区域的空间分布准确性评估
使用遥感数据映射产品的空间分布精度必须在进一步利用该产品之前进行评估(Congalton 和 Green 2019)。为了进行空间分布精度评估,我们使用了来自四个农田产品不一致区域的测试样本的视觉解译结果以及我们的修正产品作为独立验证数据,以严格评估空间分布精度。不一致区域的精度评估代表了产品的下限,使用这种方法更容易找到不同产品质量的原因。由于四个农田产品和我们的修正产品在完全一致区域的空间分布相同,因此这些结果应该是可靠的。产品的最终精度可能高于我们在此评估的结果。
测试样本的准备包括以下步骤。首先,将四种农田产品(CCILC、GFSAD30、MCD12Q1 和 FROM-GLC)与我们的修正产品叠加,以识别不一致的区域。其次,采用分层随机抽样方法从多数据产品的不一致区域获取测试样本(Olofsson 等,2014)。样本单位的大小约为
。最后,3112 测试样本被选用于空间分布评估,包括 1945 个非农田样本和 1154 个农田样本(图 7)。使用来自谷歌地球的高分辨率遥感影像(2014-2016)对测试样本进行了视觉解读。每个样本的土地覆盖类别是通过多数区域法确定的。为了提高视觉解读结果的可靠性,我们仅使用两位解读者一致同意的测试样本进行准确性评估。利用解读结果,生成了错误矩阵以及农田和非农田的生产者准确度(PA)、用户准确度(UA)和总体准确度(OA),以评估四个农田产品和我们修正产品在不一致区域的空间分布准确性(Story 和 Congalton 1986;Olofsson 等,2014;Congalton 等,2014;Congalton 和 Green 2019)。
其中
是正确分类的测试样本总数,
是测试样本的总数,
行
列中的观察值在混淆矩阵中;
是
行的边际总数,
列的边际总数。
4. 结果
本节总结了从修正的耕地产品中获得的结果。首先,展示了整个修正产品(图 4),并详细描述了“一带一路”地区耕地的面积和空间分布(图 7)。其次,呈现了四个耕地产品(CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC)与我们的修正产品的一致性分析。第三,通过将从耕地产品计算的耕地比例与 FAO 的耕地统计数据进行比较,展示了国家耕地面积评估。第四,使用测试样本展示了不一致区域的空间分布评估。
4.1. 一带一路地区修正的耕地结果
本研究为“一带一路”地区 2015 年生成了一个修正的耕地产品(图 4)。修正后的耕地总面积为
像素,占整个
地区的
。耕地主要分布在东欧平原、西西伯利亚平原、安纳托利亚半岛、东北中国平原、华北平原、秦岭南部、印度半岛和印度支那半岛。
图 4. 一带一路地区修正后的耕地产品地图。 此外,一些农田位于尼罗河、锡尔河和阿姆河流域、东南亚及其他地区。
按降序排列,耕地面积最大的前十个国家是俄罗斯、印度、中国、乌克兰、哈萨克斯坦、土耳其、波兰、泰国、巴基斯坦和伊朗。它们分别占该
地区总耕地面积的
、
和
。相比之下,阿曼、黑山、阿联酋、文莱、科威特、不丹、卡塔尔、新加坡、巴林和马尔代夫是耕地面积最少的十个国家。按降序排列,耕地比例最大的十个国家是摩尔多瓦、乌克兰、匈牙利、孟加拉国、印度、波兰、立陶宛、罗马尼亚、泰国和捷克共和国。耕地分别占这些国家土地的
、
和
。耕地比例最小的国家是巴林、也门、科威特、阿联酋、卡塔尔、沙特阿拉伯、不丹、阿曼、蒙古和马尔代夫。耕地分别占它们土地的 3.34%、1.98%、1.02%、0.91%、
和
。
4.2. 耕地产品一致性分析
几个同质区域显示出高程度的农田一致性,包括大部分东欧平原、印度半岛和华北平原,以及安纳托利亚半岛、东北中国平原和印度支那半岛的部分地区(图 5)。在这些地区,简单的地理景观元素产生了集中分布的农田,并且四种农田产品及我们修正后的产品的整体准确性相对较高。农田一致性低的区域主要出现在生态系统过渡区和人类活动广泛的地区,如东南亚、西南和西北中国、伊朗和帕米尔高原的部分地区以及北亚,在这些地方,农田常常与其他土地覆盖类型混合(图 5)。在东南亚,由于全年降雨丰富,难以获得高质量、无云的遥感影像。在西南和西北中国以及伊朗和帕米尔高原的某些地区,山脉产生了复杂的地形元素和显著的景观模式碎片化。 这导致遥感图像中出现许多混合像素,并显著影响农田提取结果。西西伯利亚平原和部分地区
图 5. 一带一路地区 CCI-LC、GFSAD30、MCD12Q1、FROM-GLC 和修正耕地产品的一致性程度。
的值表示被分类为耕地的一个到五个耕地产品。
东北和北方中国是主要粮食生产区与农牧过渡区的过渡带。这些地区复杂的地形或雨季导致遥感解译的准确性较低,以及四种耕地产品与我们修正后的产品之间的一致性较低。
4.3. 耕地产品的统计评估与比较
耕地面积是根据耕地在土地面积中所占的百分比来确定的。四个耕地产品和我们修正后的产品的结果与 FAO(2015)耕地统计数据进行比较,以评估耕地产品的准确性。这些产品之间的偏差程度不同(图 6)。例如,在
区域尺度上,修正产品识别的耕地覆盖率与 FAO 统计数据最接近,偏差为
。其次是 GFSAD30,偏差为
。CCI-LC 的耕地估计值较高,偏差为
,而 MCD12Q1 和 FROM-GLC 的估计值较低,偏差分别为
和
。耕地面积偏差较大的国家包括白俄罗斯、立陶宛、波兰、土耳其、柬埔寨和菲律宾,而耕地面积偏差较小的国家包括 埃及、土库曼斯坦、沙特阿拉伯、俄罗斯、蒙古和中国。比较五种耕地产品和 FAO(2015)耕地统计数据表明,MCD12Q1 在统计上是一致性最强的,其次是修正后的耕地产品。其他三种耕地产品的高估或低估程度各不相同。对于 CCI-LC 和 GFSAD 30,东欧和北亚的统计偏差最大,耕地面积被高估。修正后的耕地产品在某些地区高估了耕地面积。例如,保加利亚高估了 13.04%,白俄罗斯高估了 18.80%。然而,这对于 CCI-LC 的
和
以及 GFSAD 30 的
和
来说,都是显著的改进。由于东南亚的雨季,某些地区可用的无云遥感图像很少。与 CCI-LC 类似,其他四种产品在该地区均表现出显著的低估倾向。MCD12Q1 和 FROMGLC 是最不准确的。例如,对于印度尼西亚,MCD12Q1 和 FROMGLC 的低估分别为
和
。 相比之下,修正后的耕地产品对越南和印度尼西亚的低估仅为 5.67%和
。
RMSE 和
值评估了四个耕地产品及我们修正产品的耕地面积估算的离散程度和拟合度
图 6. 耕地产品和统计数据的耕地比例的分散程度和相关性分析。虚线是
的 1:1 线,实线是“一带一路”地区 65 个国家的耕地产品和统计数据的线性回归线(RMSE:均方根误差,
:决定系数)。 根据 FAO(2015)的统计数据,结果如图 6 所示,其中虚线为 1:1 线,反映了离散程度。CCI-LC、GFSAD30、MCD12Q1 和 FROM-GLC 以及修正后的耕地产品的均方根误差(RMSE)值分别为 14.55%、14.65%、8.97%、9.01%和
。一般来说,较高的 RMSE 值表示耕地产品与统计数据之间存在显著差异。如图 6(c)、6(d)、6(e)和 8(e)所示,MCD12Q1、FROM-GLC 和修正后的耕地数据的结果与 FAO 统计数据接近。MCD12Q1 的离散程度最低,数据点主要分布在 1:1 线附近。然而,CCI-LC 和 GFSAD 30 的离散程度相对较高(图 6(a 和 b)),因为几个数据点明显偏离 1:1 线。这表明 CCI-LC 和 GFSAD 30 高估了耕地面积,特别是在东欧。这导致整体 RMSE 值较高。通常,较大的决定系数意味着与统计数据的拟合程度更好。 与 FAO(2015)统计数据相比,CCI-LC、GFSAD30、MCD12Q1、FROM-GLC 和修正耕地产品的相关系数
值分别为
和 0.77。由此我们可以推断,MCD12Q1 的拟合度最高,而 GFSAD 30 的拟合度最低。
由于同一对象可以具有不同的光谱和混合像素,通过解读遥感图像获得的农田面积比统计数据提供更好的准确性(Lu et al. 2016)。尽管 MCD12Q1 在特定国家内实现了更高的农田面积准确性,但“一带一路”地区的农田面积显著被低估,因为大多数国家用于作物的土地比例低于 FAO(2015)农田统计数据所建议的水平。CCI-LC 和 GFSAD 30 明显高估了东欧的农田。这导致了高 RMSE 值和低
值。由于 GFSAD30、MCD12Q1 和 FROM-GLC 已被重采样,它们提供的农田面积与原始产品的农田面积存在偏差。因此,使用统计数据进行农田面积验证无法完全反映特定农田产品的准确性。修正后的农田产品的 RMSE 值为
,
值为 0.77,表明修正后的农田产品面积与整个
地区的 FAO 农田统计数据具有良好的一致性。
4.4. 不一致区域的空间分布评估及农田产品的比较
表 3 显示了基于测试样本的视觉解读结果,四种农田产品和我们修正产品在不一致区域的生产者精度、用户精度和总体精度。修正农田产品的精度最高,总体精度为 77.54%。其次是 GFSAD 30、MCD12Q1、FROM-GLC 和 CCI-LC。修正农田产品的用户精度(UA)为 65.16%,生产者精度(PA)为 86.72%,均为农田类别中最高。CCI-LC 和 GFSAD 30 的用户精度分别为 41.68%和 54.26%,而 MCD12Q1 和 FROM-GLC 的生产者精度分别为 50.30%和
,均较低。这表明 MCD12Q1 和 FROM-GLC 低估了农田面积,而 CCI-LC 和 GFSAD 30 则高估了该地区的农田面积。例如,FROM-GLC 在东欧平原、西西伯利亚和东南亚低估了农田面积(图 7)。相反,CCI-LC 和 GFSAD 30 表现出高生产者精度和低用户精度,这表明大量非农田区域被错误分类为农田。这两个产品在东欧平原和北亚高估了农田面积(图 7)。 CCI-LC 还高估了青藏高原和云南-贵州高原的耕地,而修正后的耕地产品减少了这两个产品的高估程度。总之,这些结果表明,修正后的产品可以提高不一致地区耕地识别的准确性。
5. 讨论
在大范围内绘制农田地图一直是极具挑战性的,特别是在实现高精度和快速生产方面(Herold et al. 2008; Teluguntla et al. 2018)。在本研究中,我们开发了一种基于空间分析技术的新数据融合方法。首先,对输入产品进行一致性分析以提取训练样本。然后,我们使用
标准过滤样本。GEE 平台及其 RF 分类器用于修正不一致区域。对研究区域进行合理分层有助于识别具有相似作物模式和气候环境的区域。根据之前的数据融合研究,GWR 是
图 7. 四种农田产品及我们修正后的产品的空间分布。根据测试样本的视觉解读结果,CCI-LC 和 GFSAD 30 显著高估了东欧平原(A)和云南-贵州高原(D)的农田面积,而 MCD12Q1 和 FROM-GLC 在西西伯利亚平原(B)和东南亚(C)明显低估。
表 3. 根据视觉解读测试样本,在不一致区域的四种农田产品及我们修正产品的准确性误差矩阵。
农作物产品
CCI-LC
耕地
79.86%
41.68%
73.17%
非-
耕地
GFSAD 30
耕地
80.21%
54.26%
83.35%
非-
耕地
59.43%
MCD12Q1
耕地
50.30%
71.54%
非-
耕地
74.96%
FROM-GLC
耕地
41.65%
68.78%
非-
耕地
77.10%
修正的耕地
耕地
86.72%
65.16%
77.54%
非-
耕地
72.19%
对训练样本的质量、数量和空间均匀性敏感(Chen et al. 2012; Hu et al. 2018; Lu et al. 2014),而融合决策规则构建方法受输入产品准确性的影响,并且随着输入数量的增加可能会耗时(Fritz et al. 2011b; Fritz et al., 2015; Lu et al. 2017)。此外,在没有足够验证的情况下,输入产品排名的先验知识和适当的权重确定是困难的(Fritz et al. 2011b; Fritz et al., 2015)。本研究中使用的方法在不依赖外部训练样本、先验知识或土地利用统计数据的情况下提高了耕地制图的准确性。因此,该方法在大空间和时间区域内进行耕地制图时可能是合适且灵活的。
我们的方法使用信息提取和质量控制技术,为大区域提供有效的高精度农田制图。结合训练样本、更新技术以及 GEE 平台提供的多源遥感数据,未来可能会产生长期的全球土地覆盖产品。尽管输入产品中可能存在小区域的错误分类,但本研究充分利用了可用信息,并通过输入产品的一致性评估和空间统计提取了足够的均匀分布的训练样本,以清除大多数异常值和混合样本。与传统的样本收集方法不同, 通过广泛的实地调查(Oliphant et al. 2019)、高分辨率遥感图像的视觉解译(Yu and Gong 2012)以及使用众包数据如 Geo-wiki(Fritz et al. 2009),本研究中的训练样本易于更新,以生成覆盖大区域的时间序列产品。此外,与现有从单一土地覆盖产品中提取训练样本的方法(Huang et al. 2018; Jia et al. 2014; Radoux et al. 2014; Sexton et al. 2013; Wessels et al. 2016; Zhang and Roy 2017)不同,本文整合了多源土地覆盖产品。
各种来源的粮农组织统计数据(包括国家普查、手动估算和农业生产者问卷调查)、缺乏足够的技术工具以及收集数据的统计方法的差异,已被指出导致数据质量差和不确定性(粮农组织 2015;Pérez-Hoyos 等 2017;世界银行、粮农组织和联合国统计委员会 2011)。尽管粮农组织的统计数据在某些特定目的或某些地区有时被认为不够充分,但在许多地区(如中国),它们仍被视为农田面积的高度可靠估计(中国国家统计局 2015)。数据集的真正局限性在于每个国家基础统计数据的可用性。
根据对测试样本的视觉解读结果,对不一致区域的准确性评估验证了修正后的耕地产品在“一带一路”区域提供的准确性高于 CCI-LC、GFSAD 30、MCD12Q1 和 FROM-GLC。先前的研究表明,景观异质性(如耕地与森林、灌木和草本植物的混合)是现有耕地产品不一致的主要原因(Fritz et al. 2011a; Herold et al. 2008)。修正后的耕地产品在不一致区域的改进至少为
。此外,预计其准确性至少为
。在整个区域内,修正后的耕地产品的整体准确性约为
,其空间分布与融合决策规则构建方法相似(Chen et al. 2019; Lu et al. 2017; Zhong et al. 2019)。 本研究得出的一个结论是,高分辨率产品可能导致过度制图问题,特别是在一个地区包含农田、牧场和草地的情况下。例如,GFSAD 30 由于将农田与牧场混淆,明显高估了北亚和东欧的农田。GFSAD 30 在异质区域映射的农田数量也超过了粗分辨率产品。然而,GFSAD 30 在某些地区低估了农田,因为它未能完整提取黄土高原的山区农田,特别是在甘肃和河南省(Teluguntla 等,2018)。此外,GFSAD 30 使用的农田定义包括连续种植的作物,如咖啡和茶(Teluguntla 等,2018;Oliphant 等,2019)。这导致在东南亚识别出额外的农田。研究表明,CCI-LC 在某些国家产生了较大的高估(Pérez-Hoyos 等,2017)。除了北亚和东欧,CCI-LC 在与修正产品相比时,也高估了中国西南地区(如西藏和云南-贵州高原)的农田(Pérez-Hoyos 等,2017)。
先前的研究表明,由于混合类别的定义和 MODIS 的粗分辨率,MCD12Q1 在异质区域通常具有较低的 OA(Fritz 等,2011a;Pérez-Hoyos 等,2017;Sakti、Takeuchi 和 Wikantika,2017;Yang 等,2017)。例如,MCD12Q1 在中国东南丘陵地区显示出大片的木本稀树草原,这是由于农田与自然植被马赛克之间的混淆(Yang 等,2017)。然而,MCD12Q1 将大片农田和自然植被马赛克分类为非农田。在这些地区,农田的碎片化增加了使用粗分辨率遥感影像提取农田的难度。因此,在异质区域绘制农田时,适当的混合类别定义和高分辨率遥感数据的应用可能是有用的(Herold 等,2008)。FROM-GLC 分类方案缺乏“马赛克农田”的定义,并且 FROM-GLC 是基于 20 年的 Landsat 影像而非单一年份制作的。在一些过渡区(如东欧、西西伯利亚、西南和西北)存在低估现象。
中国和东南亚的情况导致所有产品中最低的 OA(Gong et al., 2013; Liang et al. 2019)。与输入产品相比,修正后的耕地产品更好地反映了过渡区的耕地分布(图 8)。尽管四个耕地产品和我们的修正产品在耕地的真实扭曲上存在一些偏差,但修正后的耕地产品通过从现有耕地产品中提取准确的信息来纠正不一致的区域,从而提高了异质区域的耕地准确性。
GEE 强大的云计算能力使其能够快速便捷地处理一堆卫星影像(Azzari 和 Lobell 2017)。许多研究集中于利用高分辨率影像绘制准确的农田分布,并提出了使用 GEE 云计算的有效方法(Dong 等,2016;Teluguntla 等,2018;Tian 等,2019)。GEE 生成的无云 50 波段 2014-2016 年 Landsat 影像集提供了各种作物的光谱特征,以过滤训练样本并识别农田。这提高了在异质区域识别农田的准确性。 未来可以采用几种策略来提高准确性。首先,输入耕地产品的不同空间分辨率使得充分利用其耕地信息变得困难。尤其是在异质区域中,高分辨率产品被重采样到粗分辨率时,这一点尤为明显。其次,GFSAD 30 耕地的定义包括咖啡、茶、橡胶、可可和油棕等连续种植,这可能增加不当训练样本选择的风险(Oliphant 等,2019;Teluguntla 等,2018)。第三,修正后的耕地产品在一些同质区域(如印度)略微高估了耕地面积,因为耕地映射的便利性导致了过多的耕地样本。由于 GEE 强大的云计算能力、多源遥感影像以及像素级分类方法的整合,未来可能会使用基于对象的分割来减少“盐和胡椒噪声”的影响。最后,样本清理方法可以改进,通过聚类分析和其他无监督学习方法提供高质量训练样本的自动提取。
c. MCD12Q1
纠正后的产品
N 耕地
修正后的产品
修正后的产品
d. FROM-GLC
修正后的产品
图 8. 四种农田产品和修正产品的放大窗口比较,其中(a) GFSAD 30 在黄土高原低估了农田,特别是在中国的甘肃和河南省;(b) CCI-LC 在中国西南地区,如青藏高原和滇黔高原,高估了农田;(c) MCD12Q1 在东南亚低估了农田;(d) FROM-GLC 在所有产品中整体准确性最低。由于原始图像边缘相遇处的不连续性造成的人工边界,可以在中国等许多地区观察到。 主题作物产品可以识别水稻和玉米的分布范围。例如,可以通过一致性评估和 GEE 平台进行训练样本提取,以弥补这些主题作物产品的低准确性,就像对农田产品所做的那样。
6. 结论
现有的数据融合方法容易受到训练样本的质量、数量和空间均匀性,以及输入耕地产品精度的影响,尤其是在大区域内绘制耕地时。在本研究中,我们提出了一种将现有耕地产品与 GEE 平台融合的方法,以获得
区域更高质量的耕地产品。首先,该方法根据气候特征对整个区域进行了分层。然后,提取训练样本的过程基于四个耕地产品的一致性评估,并去除了异常值。最后,在使用 GEE 平台纠正不一致区域后,生成了更高精度的修正耕地产品。该方法可以快速在大区域内生成大量训练样本,并减少对先前知识和土地利用统计数据的依赖。在耕地面积和空间分布评估后,我们得出结论,修正后的耕地产品在空间分布上表现出高度准确性,并与 FAO(2015)耕地统计数据相比,具有比 CCI-LC、GFSAD 30、MCD12Q1 和 FROMGLC 更好的一致性。 因此,可以快速生成
地区的高质量耕地地图。未来,将使用更多类型的土地覆盖产品来提高训练样本的准确性,并生成时间序列校正产品。随着土地覆盖产品数量的增加,训练样本的可靠性也将提高。高质量训练样本的易获取性可以用于绘制新的土地覆盖产品。
披露声明
作者声明,他们没有已知的竞争性财务利益或个人关系,这些关系可能会影响本文所报告的工作。
资金
本研究得到了中国科学院[XDA20040201]、中华人民共和国科技部[2019QZKK0603]和国家自然科学基金[41601095]的支持。
数据可用性声明
参考文献
艾伦,J. D. 2004. “景观与河流景观:土地利用对溪流生态系统的影响。” 生态、进化与系统学年鉴 35: 257-284. Azzari, G. 和 D. B. Lobell. 2017. "基于 Landsat 的云分类:土地覆盖监测范式转变的机会。" 环境遥感 202: 64-74. doi:10.1016/j.rse.2017.05.025. 巴索洛梅,E.,和 A. S. 贝尔沃德。2005。“GLC2000:一种基于地球观测数据的全球土地覆盖制图新方法。”《国际遥感杂志》26(9):1959-1977。doi:10.1080/01431160412331291297。 Benediktsson, J. A., P. H. Swain, 和 O. K. Ersoy. 1990. "神经网络方法与统计方法在多源遥感数据分类中的比较." IEEE 地球科学与遥感学报 28 (4): 540-552. doi:10.1109/TGRS.1990.572944. 比舍龙,P.,P. 德福尔尼,C. 布罗克曼,L. 绍滕,和 O. 阿里诺。2008 年。“GLOBCOVER:产品描述和验证报告。” 布雷曼,L. 2001. "随机森林。机器学习。" 45 (1),
。 布朗,M. E.,K. M. D. Beurs 和 M. Marshall. 2012. “利用卫星遥感监测 26 年来作物区的植被、湿度和温度对气候变化的全球物候响应。”《环境遥感》126: 174-183. doi:10.1016/j.rse.2012.08.009. 陈, D., M. Lu, Q. Zhou, J. Xiao, Y. Ru, Y. Wei, 和 W. Wu. 2019. "两种协同方法在混合农田制图中的比较." 遥感 11 (3): 213. doi:10.3390/rs11030213. 陈, G., 赵, K. G., 麦克德米德, G. J., 和海, G. J. 2012. "采样密度对地理加权回归的影响:以森林冠层高度和光学数据为案例研究." 国际遥感杂志 33 (9): 2909-2924. doi:10.1080/01431161.2011.624130. 陈, J., 陈, J., 廖, A., 曹, X., 陈, L., 陈, X., 何, C., 韩, G., 彭, S., 和 陆, M. 2015. "全球土地覆盖制图在