文章
两种协同方法在混合农田制图中的比较
迪晨
, 矇璐
, 青博周
, 景峰肖
(D) 雅婷如
, 晏冰韦
和 吴文彬
农业部农业资源研究所农业遥感重点实验室
和区域规划,中国农业科学院,北京 100081,中国;chendi01@caas.cn (D.C.); zhouqingbo@caas.cn (Q.Z.); weiyb_caas@163.com (Y.W.)
地球系统研究中心,地球、海洋与空间研究所,
新罕布什尔大学,达勒姆,NH 03824,美国;j.xiao@unh.edu
国际食品政策研究所 (IFPRI),华盛顿特区 20005,美国;Y.Ru@cgiar.org
* 通信: lumiao@caas.cn (M.L.); wuwenbin@caas.cn (W.W.); 电话: +86-10-82105070 (M.L.)
收到:2018 年 12 月 6 日;接受:2019 年 1 月 17 日;发表:2019 年 1 月 22 日
摘要
区域或全球尺度的农田地图通常存在较大的不确定性,并且彼此之间不一致。这些农田地图的重大不确定性限制了它们在研究和管理工作中的使用。许多协同方法已被开发出来,以从现有的农田地图中生成更高精度的混合农田地图。然而,关于这些方法的优缺点和区域适用性的研究很少。为了填补这一知识空白,本研究旨在比较两种代表性的农田制图协同方法:地理加权回归(GWR)和改进模糊一致性评分(MFAS)。我们评估了样本大小、输入卫星地图的质量以及各种景观如何影响基于这两种方法的协同地图的准确性。GWR 模型是一种回归分析,主要依赖于训练样本的农田百分比,而 MFAS 方法则在很大程度上受到输入数据集一致性的影响,训练样本仅起辅助作用。因此,GWR 方法对训练样本数量的敏感性相对高于 MFAS 方法。 输入地图的质量对这两种方法产生了显著影响,特别是对 MFAS。在具有异质景观和高海拔的地区,农田通常更加分散,基于卫星的输入地图的一致性较低;农田百分比样本的应用可以弥补数据集一致性低的问题。因此,GWR 更适合异质景观的地区,而 MFAS 更适合同质景观的地区。MFAS 方法使用农业统计数据中的农田面积来校准初始协同地图,而 GWR 模型仅考虑农田的空间分布,不利用农田面积的分布信息。MFAS 方法与统计数据的相关性更高,而 GWR 模型与农田百分比的关系更强。我们的研究揭示了两种主要协同方法(回归分析方法和数据一致性评分方法)的优缺点和区域适用性,并可以为未来的协同农田制图工作提供参考。
关键词:数据融合;农田制图;协同图;地理加权回归;改进模糊一致性评分
1. 引言
耕地是人类生存和社会发展的基本资源[1,2],因为它提供了人类所依赖的大多数产品(例如,食品商品、饲料、纤维和生物燃料)。
为了生存[3]。农田在全球碳循环中也发挥着重要作用,通过释放温室气体(例如甲烷、氧化亚氮)来调节气候。因此,准确的农田分布信息对农业监测、产量估算和粮食安全评估具有重要意义,并且可以为气候政策制定以及实现联合国 2030 年可持续发展目标(SDGs)中的零饥饿努力提供信息[4-6]。
在过去几十年中,遥感已成为获取大规模农田面积信息的主要方法。一些区域和全球农田地图的空间分辨率从 30 米到 1 公里不等,已通过遥感获得并免费向公众提供。广泛使用的全球农田地图包括 2000 年全球土地覆盖数据库(GLC2000)[7]、马里兰大学(UMd)土地覆盖层[8]、中分辨率成像光谱仪土地产品集合 5(MODIS C5)[9]、MODIS 农田数据集[10]以及 30 米全球土地覆盖数据产品(GlobeLand30)[11]。在区域或全球范围内使用遥感进行农田制图通常是一项庞大的任务,劳动密集且耗时。例如,数百名科学家参与了 2010 年至 2014 年间 GlobeLand30 的开发[11]。尽管付出了巨大的努力,这些数据集之间仍发现存在不一致,因为传感器、分类方案和分类方法的差异
。 这些土地覆盖/农田地图的重大不确定性限制了它们在研究和管理中的应用[14-16]。
为了解决上述问题,最近开发了协同方法,通过整合现有的耕地数据集来创建混合耕地地图。这些协同方法通常可以分为两类:回归分析方法和数据一致性评分方法。前者首先建立训练样本与输入数据集之间的回归关系,然后利用该关系预测未采样区域耕地发生的概率。回归模型通常基于大量的训练样本。回归分析已被用于生成区域和全球尺度的混合土地覆盖地图。木下等人通过逻辑回归创建了全球土地覆盖和概率图。See 等人使用逻辑地理加权回归(GWR)方法建立了 1 公里空间分辨率的全球土地覆盖产品。此外,Schepaschenko 等人使用 GWR 模型制作了全球森林覆盖图。 第二组协同方法基于输入土地覆盖产品的一致性构建评分表,并选择高置信度的像素进行协同。例如,Jung 等人[23]开发了一种模糊一致性评分方法,以生成新的 1 公里全球土地覆盖产品。随后,Fritz 等人[4]使用改进的模糊一致性评分(MFAS)协同方法生成了全球范围的协同农田地图。Lu 等人[5]使用一种新的分层优化协同方法生成了中国的协同农田地图。
以客观的方式评估协同方法的性能对于协同耕地制图至关重要。这可以帮助用户选择制图方法并评估结果的不确定性。性能评估最常见的方法是将协同结果的准确性与测试样本进行比较。例如,Clinton 等人 [24] 比较了九种协同方法以推导三种全球土地覆盖图,而 Lesiv 等人 [25] 则比较了五种协同方法,使用 Geo-Wiki [26,27] 众包数据创建混合森林覆盖图。这两项研究表明,GWR 在全球土地覆盖制图中的表现优于其他协同方法。然而,上述研究仅限于比较各种回归分析方法,并未包括数据一致性评分方法。更重要的是,这些研究仅比较了结果的空间准确性,并未分析各种输入数据集、训练样本和景观的适应性。
为了克服这些问题,本研究比较和分析了回归分析方法和数据一致性评分方法的优缺点及区域适应性。我们选择了最广泛使用的 GWR 和 MFAS 作为代表性方法,并使用七个基于卫星的农田地图来创建协同农田地图。
中国被选为研究区域,因为其广阔的领土和高度的农业景观异质性。进行了三项不同的实验,以比较 GWR 模型和 MFAS 方法在样本大小、输入产品质量和景观方面的表现。计算了包括总体准确率(OA)、决定系数
和面积差异率(ADR)在内的三项统计指标,以分析协同制图的结果。
两种协同方法的原则
2.1. 地理加权回归
GWR 是一种空间分析方法,采用位置信息和平滑技术用于回归模型,其中回归参数因不同地理位置而异。因此,GWR 通常在大区域内比其他回归方法具有更好的模拟结果。GWR 的原理是回归中自变量和观测值的地理位置按距离加权,离研究位置更近的点对参数估计的影响更大。GWR 方程可以表示如下:
其中
是样本
的坐标,
是截距项;
-th 回归系数的地理位置函数表示样本
的随机误差项;
;
是训练样本
中
输入地图的耕地百分比,
是训练样本
中实际的耕地百分比。
是输入地图的数量。回归系数的估计基于加权最小二乘法,如下方方程所示:
其中
是自变量矩阵;
是
的转置,是空间权重矩阵,其对角元素表示靠近
的观测值的地理权重;是因变量矩阵。基于双平方距离衰减函数的自适应核函数用于获取地理权重。双平方函数的最佳带宽由赤池信息量准则(AIC)确定。
训练样本的回归系数通过地理加权回归(GWR)计算,而其他像素的回归系数则通过反距离加权(IDW)插值法计算。最后,耕地百分比图通过线性回归计算如下:
其中
是每个位置的耕地覆盖,
是位置的二维向量,
是来自各个输入地图的耕地百分比;
和
分别是使用 GWR 和 IDW 插值法在位置
计算的截距项和回归系数;
是输入地图的数量。
2.2. 修改后的模糊协议评分
MFAS 方法的逻辑是,现有耕地数据产品中一致性较高的像素更有可能是真正的耕地像素[4,29]。输入地图首先根据其准确性评估进行排名,然后根据地图排名建立不同地图组合的评分表。农业统计中的耕地面积被用作标准,以选择高排名的像素,直到累计的耕地面积接近耕地面积统计数据。
输入的耕地地图首先被排序,以创建初始协同图。具体而言,训练样本用于评估每个单独耕地地图的准确性,并且每个地图的排名是
根据其准确性确定(即,较高的准确性表示较高的排名)。然后根据输入地图的排名和一致性建立评分表。例如,当使用五个不同的地图时,评分表的值范围从 1 到 32,如在线补充材料中的表 S1 所示。输入地图通过评分表转换为初始协同图。然后,初始协同图通过农业统计中报告的“真实”耕地面积进行校准。选择高分值的像素,并根据平均耕地百分比和像素面积计算这些像素的总耕地面积。分配过程持续进行,直到总耕地面积非常接近从农业统计中获得的真实面积。
在这项研究中,对每个省进行了协同处理。首先评估每个省每个输入地图的准确性,并确定每个单独输入数据集的排名。然后建立每个省的得分表,以获得初步的协同地图。最后,利用农业统计数据中的省级耕地面积,通过校准初步协同地图生成协同耕地地图。
3. 数据和实验设计
我们设计了三个比较实验,使用了不同的训练样本集、多种不同精度的耕地地图和不同的景观(图 1)。我们选择中国作为研究区域(图 2)。本研究使用了七个不同空间分辨率的卫星耕地地图。实验结果通过空间精度、与验证样本的耕地百分比的一致性以及与农业统计的耕地面积的一致性进行评估和比较。
图 1. 比较实验的流程图。
图 2. 研究区域:中国及五个省(江苏、安徽、河南、山西、云南)。数字高程模型(DEM)代表了研究区域的地形。中国进行了不同训练样本大小的协同耕地制图和基于不同卫星地图的协同耕地制图。在五个省进行了不同地形的协同耕地制图。
3.1. 数据与处理
七个基于卫星的农田地图,包括 GlobeLand30、气候变化倡议土地覆盖产品(CCI-LC)、MODIS Collection5、MODIS 农田、GlobCover 2009、统一农田和中国国家土地利用/覆盖数据库(NLUD-C)2010 年,用于 2010 年中国的协同农田制图。GlobeLand30 地图的空间分辨率为 30 米,基于 Landsat 和 HJ-1 卫星图像采用像素-对象-知识方法制作[30]。CCI-LC 地图是一个 300 米的全球土地覆盖数据集,基于 2008 年至 2012 年的中分辨率成像光谱仪(MERIS)时间序列数据[31]。MODIS Collection 5 土地覆盖地图是在 500 米空间分辨率下,基于 MODIS 波段 1-7 和增强植被指数(EVI)使用决策树分类算法生成的[9]。MODIS 农田地图是基于多年 MODIS 数据开发的,空间分辨率为 250 米,并使用决策树分类算法进行农田面积统计[10]。GlobCover 2009 地图的空间分辨率为 300 米,由欧洲航天局和鲁汶天主教大学使用 MERIS 高分辨率 2009 年马赛克的时间序列制作[32]。 2014 年统一耕地层的空间分辨率为 250 米,采用四个维度(时效性、图例、分辨率和置信度)结合最优产品生成[33]。NLUD-C 地图是由中国科学院利用 Landsat TM/ETM+影像通过人机交互解译生成的[34,35]。
这些农田地图基于不同的地图投影、分类方案和空间分辨率。在进行协同制图之前,这些地图的预处理包括投影转换、农田定义的协调和空间分辨率的标准化。这些输入地图首先被投影到相同的地图投影中。然后,我们使用联合国粮食及农业组织(FAO)的农田定义作为七张地图的共同定义来协调农田定义。FAO 的农田定义包括可耕地和永久性作物。纯农田和马赛克农田类别分别被赋予高权重和低权重[5]。在线补充材料中的表 S 2 显示了输入地图的农田定义和修改后的农田百分比。最后,所有地图都以 500 米的空间分辨率进行重采样,计算平均农田百分比。
总共使用了 2800 个农田样本和 2851 个非农田样本进行实验。其中,443 个农田样本和 1687 个非农田样本来自清华大学(http:/ / data.ess.tsinghua.edu.cn/)。在清华大学样本的收集方案中,整个地球被 DGGRID 软件划分为约 7000 个等面积的六边形,并在每个六边形中随机选择了 10 个样本[36]。土地覆盖类型通过高分辨率图像的视觉解译进行识别。由于中国只有 443 个农田样本,这不足以进行实验,其他样本则来自 Lu 等人(2017)的研究。在 Lu 等人(2017)的抽样框架中,样本是通过基于输入农田地图一致性的分层随机抽样方法选择的[5],其土地覆盖类型通过 Google Earth 图像(由 DigitalGlobe 的 WorldView-2 卫星传感器提供,并通过 Google Earth Pro 软件获得)在 2010 年左右进行识别。对于每个被识别的样本(像素),我们使用 Google Earth 图像估算了
像素内的农田百分比。 在本研究中,我们使用分层随机抽样方法将训练样本和验证样本进行划分。
的总样本被随机选取用于训练,其余(847 个农田样本,848 个非农田样本)用于验证(见在线补充材料中的图 S1)。
2010 年的耕地面积统计数据来自第二次全国土地调查项目,这是中国的官方国家统计数据。耕地面积是基于遥感影像创建的调查基础地图进行估算的,耕地的定义与粮农组织使用的定义相似。在本研究中,省级耕地面积统计数据(在线补充材料中的表 S3)用于 MFAS 方法的校准。
3.2. 实验描述
七个协调耕地地图的准确性通过验证样本进行评估(表 1)。准确性从高到低的地图依次为统一耕地地图(#1)、GlobeLand30(#2)、NLUD-C(#3)、MODIS Collection 5(#4)、CCI-LC(#5)、MODIS 耕地(#6)和 GlobCover2009(#7)。
表 1. 七个协调耕地地图的耕地百分比和统计数据的准确性和一致性。
耕地地图 |
|
|
|
统一耕地 |
81.18 |
0.68 |
0.79 |
全球土地 30 |
77.76 |
0.60 |
0.80 |
NLUD-C |
76.76 |
0.55 |
0.83 |
MODIS 第五版 |
76.58 |
0.38 |
0.74 |
CCI-LC |
75.69 |
0.36 |
0.58 |
MODIS 农田 |
71.86 |
0.27 |
0.44 |
GlobCover 2009 |
69.50 |
0.23 |
0.38 |
3.2.1. 与不同训练样本大小的协同耕地制图
在本实验中,我们分析了训练样本大小对两种协同方法的影响。随机选择了七组训练样本,包括
和
的总训练样本(表 2)。为了获得最佳结果,我们选择了平均准确率最高的输入地图组合(统一耕地、GlobeLand30 和 NLUD-C)进行协同耕地制图。生成的地图随后用于评估训练样本大小的影响。
表 2. 评估训练样本大小对协同耕地制图影响的实验设计。使用的耕地地图包括统一耕地地图(#1)、全球土地 30(#2)和 NLUD-C(#3)。
|
样本 1 |
样本 2 |
样本 3 |
样本 4 |
样本 5 |
样本 6 |
样本 7 |
总训练样本的比例 |
90% |
|
|
|
|
|
|
农田训练样本 |
1777 |
1383 |
969 |
574 |
176 |
92 |
15 |
非农田训练样本 |
1783 |
1386 |
1009 |
613 |
220 |
106 |
25 |
验证样本 |
耕地:847 非耕地:848 |
输入数据集组合 |
3.2.2. 不同卫星地图的协同耕地制图
在本实验中,我们评估了输入卫星地图的质量对两种协同方法的影响。所有训练样本都用于 GWR 和 MFAS。我们计算了三种输入地图组合的平均准确度,然后选择了七组输入地图组合,其平均准确度从高到低排列(表 3)。统一耕地、GlobeLand30 和 NLUD-C 的组合具有最高的整体准确度(
),其次是统一耕地、MODIS Collection 5 和 CCI-LC 的组合。包括 CCI-LC、MODIS 耕地和 GlobCover2009 的组合具有最低的准确度(
)。这些实验产生的协同地图随后用于比较和分析输入卫星地图对协同耕地制图的影响。
表 3. 输入卫星地图质量影响的实验设计。使用的耕地地图包括统一耕地地图(#1)、全球土地 30(#2)、NLUD-C(#3)、MODIS 第 5 版(#4)、CCI-LC(#5)、MODIS 耕地(#6)和 GlobCover2009(#7)。
|
组 1 |
第二组 |
组 3 |
第四组 |
第五组 |
第六组 |
第 7 组 |
|
|
|
|
|
|
输入地图组合 |
|
|
|
|
|
|
|
|
|
|
|
|
|
平均准确率 (%) |
78.57 |
77.82 |
76.54 |
75.10 |
74.67 |
73.98 |
72.35 |
|
|
|
|
|
|
训练样本 |
|
|
耕地:1953 |
非农田:2003 |
总计:3956 |
|
|
验证样本 |
|
|
|
|
|
|
|
|
|
|
|
|
|
3.2.3. 与各种景观的协同耕地制图
在本实验中,我们分析了不同景观对两种协同方法的影响。一系列研究表明,景观对土地覆盖/农田制图有明显影响[12,13,37]。在中国,山区通常以异质景观为特征,而平原地区一般表现为同质景观。因此,我们使用海拔作为指标,选择具有不同景观的区域,以比较 GWR 和 MFAS。柴等[38]将地貌形式分为平原(
)、丘陵(20-200 米)、低山(200-500 米)、中山(
)和高山(
)。根据这一标准,我们选择了包括江苏、安徽、河南、山西和云南在内的五个省(图 2),其平均海拔见表 4。所有训练样本和输入数据集均用于基于 GWR 和 MFAS 的协同制图。然后,提取并评估了五个省的结果,每个区域使用 100 个验证样本进行评估。
表 4. 各种景观影响的实验设计。
|
测试 1 |
测试 2 |
测试 3 |
测试 4 |
测试 5 |
省 |
江苏 |
安徽 |
河南 |
山西 |
云南 |
风景 |
平坦 |
山丘 |
低山 |
中等山脉 |
高山 |
平均数字高程模型 (米) |
13.26 |
119.01 |
247.59 |
1160.68 |
1889.64 |
|
耕地 |
74 |
70 |
70 |
60 |
35 |
非农田 |
26 |
30 |
30 |
40 |
65 |
性能评估包括整体准确度
、决定系数
和面积差异率
,主要在 ENVI 软件和 IDL(交互式数据语言)中计算。整体准确度
用于评估协同结果的准确性。整体准确度的计算如下:
其中
是正确分类的像素数量,
是像素的总数量。根据 Pontius 和 Millones(2010)的说法,我们没有选择 Kappa 系数来评估准确性,因为它在实际应用中具有误导性或缺陷[39]。
决定系数
用于评估融合耕地百分比与从高分辨率图像(即来自谷歌地球的耕地百分比)识别的耕地百分比之间的相关性,以及融合省级耕地面积与耕地面积统计数据之间的相关性。面积差异率
用于评估单个融合耕地面积与实际耕地面积之间的差异程度。ADR 的计算如下:
其中
是由协同图估算的单个省份
的耕地面积,
是作为参考的省份
的耕地面积统计数据。
4. 结果
4.1. 训练样本的影响
这两种协同方法(GWR 和 MFAS)被用于多组训练样本的农田制图(表 2)。这两种方法导致了相似的农田分布,但在农田百分比上表现出较大差异(图 3)。在一些地区,如四川盆地、湖南省和华北平原,MFAS 预测的农田百分比高于 GWR。当训练样本数量减少时,这种模式更加明显。相反,在内蒙古和新疆,GWR 预测的农田百分比高于 MFAS。
我们比较了空间精度、与高分辨率图像识别的耕地百分比的一致性以及与统计数据的一致性,以评估 GWR 和 MFAS 的表现如何随训练样本大小的变化而变化(图 4)。GWR 协同结果的整体精度随着训练样本数量的减少而略有下降,特别是当训练样本数量少于原始样本的
时。训练样本大小对 MFAS 协同结果的整体精度没有显著影响(图 4a)。在与高分辨率图像识别的耕地百分比的一致性方面,当训练样本减少时,GWR 协同结果与高分辨率图像识别的耕地百分比之间的
略有下降。训练样本对 MFAS 协同结果与高分辨率图像识别的耕地百分比之间的
影响较小。在与耕地面积统计数据的一致性方面,随着训练样本的减少,GWR 协同结果与耕地面积统计数据之间的
逐渐增加。 在 MFAS 协同结果与农田面积统计数据之间的
值稳定且高于 GWR 协同结果的值(图
)。
耕地百分比
耕地百分比差异 GWR 和 MFAS
图 3. 协同耕地结果:地理加权回归(GWR)(左侧面板)和改进模糊一致性评分(MFAS)(中间面板)及其差异图像(右侧面板)。从上到下的面板表示不同样本集的协同结果,如表 2 所示。
图 4. 性能评估和比较,包括空间精度(a)、与耕地百分比的一致性,以及与统计数据中耕地面积的一致性,使用了各种样本集
。
4.2. 卫星地图的影响
我们选择了七张地图中的三张,形成了七种不同平均准确度的组合。这些基于卫星的地图组合被应用于 GWR 和 MFAS,以生成协同耕地地图(图 5)。随着输入地图平均准确度的降低,使用这两种方法预测的耕地百分比差异增大,特别是在陕西省以及山西和内蒙古省交界处(图 5c1-c7)。当输入地图的平均准确度最低时,两种方法之间的差异最大。
显然,随着输入地图组合的平均准确度降低,两种协同结果的整体准确度也下降,并且与 GWR 相比,MFAS 对输入地图质量更为敏感(图 6a)。两种协同方法与从高分辨率图像中识别的耕地百分比之间的
值随着输入地图组合的平均准确度降低而减少。输入地图的平均准确度对 MFAS 协同结果的影响显著高于对 GWR 协同结果的影响(图 6b)。当数据集的平均准确度降低时,GWR 协同结果与耕地面积统计数据之间的
逐渐减少。然而,MFAS 协同结果与耕地面积统计数据之间的
始终保持在高水平,仅略有变化(图 6b)。
图 5. GWR(左侧面板)和 MFAS(中间面板)的协同耕地图及其差异图像(右侧面板)。从上到下的面板表示不同平均精度的输入卫星地图组合的协同结果,如表 3 所示。
图 6. 性能评估和比较,包括空间精度(a)、与耕地百分比的一致性,以及与统计数据的一致性,使用不同平均精度的输入卫星基础地图组合
。
4.3. 各种景观的影响
为了评估不同景观对两种方法协同映射的影响,我们选择了五个不同景观的区域进行比较实验。在平原、丘陵和低山地区,MFAS 预测的耕地百分比略高于 GWR(图 7)。在平均海拔超过 500 米的中山和高山地区,GWR 预测的耕地百分比逐渐高于 MFAS。
这表明,随着平均海拔的增加,GWR 协同图的整体准确性下降(图 8a)。在海拔超过 1500 米时,GWR 的整体准确性急剧下降。MFAS 的整体准确性也随着平均海拔的增加而下降。当海拔超过 200 米时,MFAS 协同图的整体准确性显著下降。两种协同结果与从高分辨率图像中识别的耕地百分比之间的变化趋势(图 8b)与整体准确性趋势(图 8a)一致。GWR 协同结果的耕地面积与耕地面积统计数据之间的面积差异率高于 MFAS 协同结果的耕地面积与耕地面积统计数据之间的差异率。随着平均海拔的增加,两种方法的面积差异率之间的差距也逐渐增大。特别是对于 GWR 模型,当海拔超过 500 米时,面积差异率明显增加(图 8c)。 然而,各种景观对 MFAS 协同结果的耕地面积与耕地面积统计数据之间的面积差异率的影响相对较低且不明显。
GWR 和 MFAS 的耕地百分比差异
图 7. GWR(左侧面板)和 MFAS(中间面板)的协同耕地图及其差异图像(右侧面板)。从上到下的面板表示不同景观下的协同结果,如表 4 所示。
图 8. 使用各种景观的性能评估和比较,包括空间精度(a)、与耕地百分比的一致性(b)和与统计数据的一致性(c)。
5. 讨论
GWR 模型是一种基于训练样本的耕地百分比的回归分析
,而 MFAS 方法主要依赖于输入数据集的一致性,训练样本仅起辅助作用[29]。我们进行了三次实验,以分析训练样本的大小、卫星耕地地图的质量以及景观变化对这两种方法性能的影响。GWR 通常具有更高的整体准确性和更好的耕地百分比一致性,而 MFAS 在耕地面积统计方面具有更好的一致性。
训练样本是协同方法的重要输入数据。与 MFAS 相比,GWR 对训练样本更敏感且更依赖。对于 GWR 来说,训练样本越多,协同图的准确性就越高,预测值与真实值的接近程度也越高。以往的研究表明,训练样本在质量和数量上的代表性,以及它们的空间均匀性,对 GWR 模型非常重要[20,41,42]。我们还发现,当样本相对充足时,GWR 协同图的整体准确性略高于 MFAS 协同图。然而,当训练样本数量非常少时,GWR 协同图的整体准确性低于 MFAS。随着训练样本数量的减少,GWR 图和 MFAS 图的整体准确性分别下降了
和
。GWR 对训练样本数量变化的敏感性略高于 MFAS。
输入地图的质量对这两种方法有显著影响,特别是对 MFAS 方法。MFAS 方法基于数据一致性[4,29]。以往研究表明,输入地图的质量对基于数据一致性的协同方法非常重要[5,29,43]。输入数据集质量的提高可以提升最终协同地图的准确性[29]。同样,我们发现输入地图的质量影响了 MFAS 协同地图的准确性(图 5)。我们的结果表明,随着输入地图质量的下降,MFAS 和 GWR 协同地图的整体准确性分别下降了
和
。GWR 方法受到的影响较小,因为训练样本的耕地百分比被直接使用。
景观是影响两种协同方法性能的另一个重要因素。我们的结果显示,当海拔高于 200 米时,MFAS 协同图的准确性受到景观的显著影响。而 GWR 协同图仅在海拔超过 1500 米时受到显著影响。训练样本和输入图的质量与景观模式有关。在高海拔的异质区域,农田通常是碎片化的,基于卫星的输入图的一致性通常较低[13]。我们的结果表明,MFAS 对景观变化更为敏感。在缺乏更高分辨率和更准确的输入农田图的情况下,GWR 在异质区域表现优于 MFAS。Lesiv 等人[25]也指出,在全球森林制图中,GWR 比其他方法更适合高度碎片化的景观区域。
与 GWR 模型相比,MFAS 方法可以生成与农田统计数据相关性更高的协同图。这是因为 MFAS 使用统计数据来校准初始协同图,而 GWR 模型仅考虑农田的空间分布,而不涉及农田面积的分布。Schepaschenko 等人[20]比较了 GWR 生成的“最佳猜测”混合全球森林图和使用 FAO FRA(森林资源评估)统计数据校准的混合全球森林图。他们的研究表明,在国家层面,基于 GWR 的森林面积与 FAO 统计数据校准的森林面积之间存在一些差异,部分原因是 FAO FRA 将森林视为土地利用而非土地覆盖[20]。类似地,GWR 将农田视为土地覆盖,而 MFAS 将农田视为土地利用。需要注意的是,当训练样本数量减少时,GWR 协同图与农田统计数据之间的相关性增加。原因是用于协同的三个输入数据集与统计数据高度相关。 当训练样本数量减少时,输入图的影响在融合结果中变得更大,预测结果更接近用于回归的输入图,并且 GWR 协同结果与统计数据之间的相关性增加。
GWR 预测的耕地百分比与高分辨率图像识别的耕地百分比一致性更高,相比之下 MFAS 则较低。GWR 使用耕地百分比样本进行回归,而 MFAS 则利用输入地图的一致性进行实验。在 MFAS 方法中,样本仅用于评估输入地图的整体准确性并建立详细的评分表。然而,GWR 通常高估耕地百分比,例如中国南部和西北部的一些地区。在这些地区,耕地相对分散且稀少。同时,在 GWR 模型中,回归参数依赖于地理位置,靠近耕地的像素更可能被预测为耕地区域。许多河流和湖泊通常被耕地环绕,因为有充足的水源用于灌溉。在耕地与河流/湖泊交界的像素中,耕地百分比被高估。
方法选择依赖于输入数据、地形和应用目的。输入数据是协同映射的重要基线信息。由于 GWR 更依赖于训练样本,当训练样本不足时,MFAS 是更好的选择。对于同质区域,输入的耕地产品通常具有更高的准确性和更好的一致性。因此,MFAS 也是一个不错的替代方案,因为它操作更简单、更快速。对于异质区域,GWR 是更好的选择,因为它的表现优于其他方法[25]。MFAS 可以生成与耕地统计数据具有更高相关性的协同图,因此推荐该方法用于需要准确耕地面积的协同图应用,如产量估算[45]和作物分布制图[46]。同时,对于一些应用,如耕地碎片化分析[47],GWR 适合生成协同图,因为它的耕地百分比准确。在本研究中,我们仅比较了两种协同方法 GWR 和 MFAS。 在未来,我们将进行更多的比较实验,包括朴素贝叶斯和逻辑回归等,以提供更多的方法选择参考。
6. 结论
识别不同协同方法的优缺点对于生成准确的协同耕地制图空间分布信息至关重要。在本研究中,我们评估并比较了训练样本的大小、卫星耕地地图的质量以及景观变化对两种协同方法(MFAS 和 GWR)性能的影响。我们还分析了回归分析方法和数据一致性评分方法的优缺点及区域适应性。当训练样本数量相对较大时,GWR 方法的整体准确性高于 MFAS 方法。MFAS 方法对样本的依赖性较小,因此在样本数量相对较少的情况下更为适用。卫星地图的质量影响了这两种方法,特别是 MFAS。
GWR 对景观变化的敏感性低于 MFAS。MFAS 估算的农田面积与农田面积统计数据的相关性更高,而 GWR 预测的农田百分比在数值上更接近高分辨率图像所识别的值。GWR 模型更适合于如丘陵和低山地区等异质景观的区域,但前提是农田分布更广泛。相反,MFAS 更适合于如平原地区等同质景观的区域。MFAS 适合用于制作全球或区域的大规模农田地图,这些地图可以用于全球经济、生物物理和其他土地利用模型,因为它将农田地图视为土地利用类型。如果将 GWR 地图应用于土地利用模型,则需要通过统计数据(如 FAO)进行校准。MFAS 比 GWR 更经济,因为它对样本数据和计算资源的依赖较小。
补充材料:以下内容可在线获取,网址为 http://www.mdpi.com/2072-4292/11/3/213/s1,图 S1:训练和验证样本的分布,表 S1:修改模糊一致性评分方法的评分表(5 个输入地图);表 S2:耕地定义和输入地图的修改耕地百分比;表 S3:耕地的省级统计数据。
作者贡献:D.C.、M.L.、Q.Z. 和 W.W. 设计并构思了实验。D.C.、M.L. 和 Y.W. 进行了实验。D.C.、M.L.、J.X. 和 Y.R. 分析了数据。所有作者都参与了本文的撰写。
资助:本研究得到了中国国家自然科学基金(41871356)、中国国家重点研发计划(2017YFE0104600)、中央非营利性科研机构基础研究资金(编号:1610132018017)以及中国农业科学院优秀青年计划的资助。
致谢:AGRIRS 的农业土地系统小组在整个研究过程中提供了宝贵的支持。我们感谢匿名评审和学术编辑的宝贵建议和意见。
利益冲突:作者声明没有利益冲突。
参考文献
福利, J.A.; 拉曼库提, N.; 布劳曼, K.A.; 卡西迪, E.S.; 格伯, J.S.; 约翰斯顿, M.; 穆勒, N.D.; 奥康奈尔, C.; 雷, D.K.; 韦斯特, P.C.; 等. 为耕种的星球提供解决方案. 自然 2011, 478, 337-342. [CrossRef] [PubMed]
基尔尼,J. 食品消费趋势和驱动因素。哲学会刊 R. Soc. B 2010, 365, 2793-2807. [CrossRef] [PubMed]
戈德弗雷, H.; 贝丁顿, J.; 克鲁特, I.; 哈达德, L.; 劳伦斯, D.; 穆尔, J.; 普雷蒂, J.; 罗宾逊, S.; 托马斯, S.; 图尔敏, C. 食品安全:喂养 90 亿人的挑战. 科学 2010, 327, 812-818. [CrossRef] [PubMed]
弗里茨, S.; 西, L.; 麦卡勒姆, I.; 你, L.; 本, A.; 莫尔查诺娃, E.; 杜尔瑙尔, M.; 阿尔布雷希特, F.; 希尔, C.; 佩尔格, C.; 等. 全球农田和田块大小的映射. 全球变化生物学. 2015, 21, 1980-1992. [CrossRef]
卢明;吴伟;游丽;陈东;张丽;杨鹏;唐辉。通过融合多个现有地图和统计数据构建中国的协同农田。传感器 2017, 17, 1613。[CrossRef] [PubMed]
斯坦斯菲尔德,J. 联合国可持续发展目标(SDGs):跨部门合作的框架。Whanake 太平洋社区发展杂志 2017,3,38-49。
巴索洛梅,E.;贝尔沃德,A.S. GLC2000:一种基于地球观测数据的全球土地覆盖制图新方法。国际遥感杂志 2005,26,1959-1977。[CrossRef]
汉森, M.; 德弗里斯, R.; 唐申德, J.; 索尔伯格, R. 使用分类树方法进行 1 公里空间分辨率的全球土地覆盖分类. 国际遥感杂志 2000, 21, 1331-1364. [CrossRef]
弗里德尔, M.; 苏拉-梅纳谢, D.; 谭, B.; 施奈德, A.; 拉曼库提, N.; 西布利, A.; 黄, X. MODIS 第 5 版全球土地覆盖: 算法改进和新数据集的特征化. 遥感环境. 2010, 114, 168-182. [CrossRef]
皮特曼,K.;汉森,M.;贝克雷舍夫,I.;波塔波夫,P.;贾斯蒂斯,C. 使用多年 MODIS 数据估算全球耕地范围。遥感。2010,2,1844-1863。[CrossRef]