文章
海上丝绸之路沿海地区多源土地利用/土地覆盖数据集的数据融合与精度分析
万侯
和西永侯 1,3,4,*
中国科学院烟台海岸带研究所,烟台 264003, 中国;whou@yic.ac.cn
中国科学院资源与环境学院,北京 100049,中国
中国科学院烟台 264003,沿海环境过程与生态修复重点实验室
中国青岛 266071,中国科学院海洋大科学中心
* 通信: xyhou@yic.ac.cn; 电话: +86-0535-2109196
收到:2019 年 11 月 4 日;接受:2019 年 12 月 2 日;发布:2019 年 12 月 4 日
摘要
高精度的土地利用/土地覆盖分类制图源自遥感,为全球和区域尺度的环境评估、气候变化模拟、地理条件监测和环境管理提供了重要的数据集。这是地球系统科学研究中的一个重要课题,而沿海地区是该领域的热点区域。本文以海上丝绸之路的沿海地区为研究对象,采用基于一致性分析和模糊集理论的融合方法,实现了三种土地利用/土地覆盖数据集的融合:MCD12Q1-2010、CCI-LC2010 和 GlobeLand30-2010。通过误差矩阵、空间混淆、平均整体一致性和平均类型特异一致性分析了融合结果的准确性。主要发现如下:(1) 在基于谷歌地球建立参考数据后,与三种输入数据源相比,融合数据的生产者准确性和用户准确性均有所提高,且融合数据具有最高的整体准确性和 Kappa 系数,值为
和 0。8617,分别。(2) 各种输入数据源在融合数据中不同土地利用/土地覆盖类型的正确分类贡献和误分类影响方面存在差异;此外,融合数据与任何一个输入数据源之间的整体准确性和 Kappa 系数远高于任何两个输入数据源之间的值。(3) 融合数据的平均整体一致性最高为
,大约比输入数据源高出
。(4) 融合数据中农田、森林、草地、灌木地、湿地、人造表面、裸地和永久性雪和冰的平均类型特异性一致性最高,分别为
、
和
;与输入数据源相比,融合数据的平均类型特异性一致性高出
。本文为未来全球和区域沿海地区土地利用/土地覆盖数据的发展和准确性评估提供了信息和建议。
关键词:遥感;土地利用/土地覆盖;数据融合;一致性分析;模糊集理论;精度分析;海上丝绸之路沿海地区
1. 引言
高精度的全球和区域土地利用/土地覆盖分类数据集可以提供重要的基础信息,有效支持全球变化和区域可持续发展的科学研究,作为客观信息来源的关键
描述陆地生态系统的结构及其生态过程[1-3]。全球各国和组织相继应用不同的影像数据和分类技术,进行以土地利用/土地覆盖为主要数据类型的众多遥感制图研究。此外,已经形成了许多全球和区域尺度的土地利用/土地覆盖数据集[4,5],例如,由美国地质调查局建立的 IGBP-DISCover、由美国马里兰大学开发的 UMD、由欧盟联合研究中心建立的 GLC2000、由美国波士顿大学制作的 MCD12Q1、由欧洲航天局准备的 GlobCover 和 CCI-LC、由中国清华大学开发的 FROM-GLC,以及由中国国家测绘地理信息局提供的 GlobeLand30[6-14]。然而,由于使用了不同的数据源、分类系统和分类技术,来自单一数据源的土地利用/土地覆盖数据集存在许多问题,如准确性低、一致性差以及与统计数据存在显著差异[15]。
在多源数据共存和融合研究增加的背景下,基于多源数据融合的精细土地利用/土地覆盖遥感分类制图已成为一个热门问题[16,17]。具体而言,现有的土地利用/土地覆盖分类数据集被全面利用,并采用数学算法进行多源数据融合,以获得具有时空连续性和准确估计的结果。总体而言,融合结果在一定程度上利用了多源数据的优势和特性,并弥补了单一数据源的缺陷和不足。因此,学者和众多国际组织充分利用数据融合技术的优势,开展基于多源数据融合的土地利用/土地覆盖遥感分类制图研究[18,19]。例如,Jung 等人提出了一种基于亲和指数的融合方法,该方法融合了 GLCC、GLC2000 和 MODIS 数据,融合结果更好地表达了异质区域的土地利用/土地覆盖类型[20]。Schepaschenko 等人。 以俄罗斯为研究对象,提出了一种基于适宜性指数的融合方法,该方法融合了遥感数据、统计数据和实地调查数据;融合结果应用于生化模型的参数设置[21]。Pérez-Hoyos 等人利用模糊集理论实现了欧洲地区 CORINE、GLC2000、MODIS 和 GlobCover 数据的融合,融合结果在空间一致性和准确性方面得到了改善[22]。Kinoshita 等人使用逻辑回归模型实现了 MOD12C4/5、UMD、GLC2000、GlobCover 和 GLCNMO 数据的融合,发现融合数据集的数量对融合结果的准确性有重要影响[23]。Bai 等人设计了一种基于模糊逻辑的决策融合方法,融合了 GLCC、UMD、GLC2000、MODIS LC、GlobCover、MODIS VCF、MODIS 农田概率和 AVHRR CFTC 等多源数据集,并生成了一套全球范围内空间分辨率为 1 公里的土地利用/土地覆盖融合数据[24]。 截至目前,基于多源数据融合的土地利用/土地覆盖遥感分类制图在大多数陆地区域已经相对成熟,而对宏观尺度沿海地区的相关研究仍然不足。
海上丝绸之路起源于蓬勃发展的亚太经济圈,延伸至高度发达的欧洲经济圈;其发展使沿线国家受益,尽管沿线的生态环境也受到了一定影响。沿海地区覆盖了大部分沿海陆地和近海海域,该地区的土地利用/土地覆盖因陆海格局、气候、地形、入海河流、植被等因素的影响,与陆地面积有显著差异。海上丝绸之路的沿海地区位于陆地生态系统和海洋生态系统之间,作为经济和文化繁荣的区域,包含聚集的城市、人口和产业,同时也是受到人类活动和气候变化影响的脆弱生态系统区域。 这些地区的土地利用/土地覆盖的遥感分类制图可以为区域尺度的环境评估、气候变化模拟、地理条件监测和环境管理的科学研究提供基本数据来源。
因此,参考现有研究对各种分类数据的评估[4,5],选择了三种相对高精度的土地利用/土地覆盖分类数据集(MCD12Q1-2010、CCI-LC2010 和 GlobeLand30-2010)作为本研究的源数据集。换句话说,基于海上丝绸之路沿海地区,对土地利用/土地覆盖数据集进行了协议分析,以确定这三种数据集的一致性和不一致性,并采用基于模糊集理论的融合方法重构不一致性,以生成高精度的土地利用/土地覆盖融合数据。本文为未来全球和区域沿海地区土地利用/土地覆盖的数据开发和特征分析研究奠定了坚实基础。
2. 研究区域和材料
2.1. 研究区域
根据相关研究结果[29,30],本研究区域定义为沿海岸线 100 公里范围内的陆地和 100 米等深线范围内的海域(见图 1),涵盖东亚、东南亚、南亚、西亚、东北非和南欧。该区域包括广泛的陆地和海洋,自然环境复杂多样,人类活动影响深远。该地区的土地利用/土地覆盖受自然条件、资源禀赋、人类环境和社会经济的影响,具有与陆地面积显著不同的特征[31]。具体而言,该地区的气候类型表现出显著的带状分布,包括温带气候、亚热带气候、热带气候和地中海气候,植被类型则表现出显著的多样性,包括温带混交林、温带落叶阔叶林、亚热带常绿硬叶林、亚热带常绿阔叶林、雨林和稀树草原。 此外,该地区拥有漫长的海岸线和许多大型港口,包括广州、孟买、雅加达、新加坡和雅典等多个大型港口城市,以及中国-印度支那半岛、中国-巴基斯坦和中国-孟加拉国-印度-缅甸等几个主要经济走廊,这些都是区域经济繁荣和发展的最具活力的地区。
图 1. 研究区域概览图。
2.2. 材料
近年来,由多种制图技术和数据源产生的全球和区域尺度的土地利用/土地覆盖分类数据不断涌现,并逐渐得到应用,如 IGBP-DISCover、UMD、GLC2000、MCD12Q1、GlobCover、CCI-LC、FROM-GLC 和 GlobeLand30。我们综合了现有研究中对各种分类数据的评估[4,5],并选择了三种整体准确率相对较高的分类数据类型(MCD12Q1-2010、CCI-LC2010,
并使用 MCD12Q1-2010、CCI-LC2010 和 GlobeLand30-2010 作为源数据集进行本研究(表 1)。MCD12Q1-2010 的分辨率为 500 米,其土地利用/土地覆盖被划分为 IGBP 指定的 17 类,由美国波士顿大学使用 MODIS 影像制作[32]。CCI-LC2010 的分辨率为 300 米,其土地利用/土地覆盖被划分为 FAO 指定的 22 类,由欧洲航天局使用 MERIS 和 SPOT-VGT 影像建立[11,33]。GlobeLand30-2010 的分辨率为 30 米,其土地利用/土地覆盖被划分为 10 种类型,由中国国家测绘地理信息局开发;主要影像来源为 Landsat-TM/ETM7 影像,并辅以 HJ-1A/b 影像
。
表 1. 三个土地利用/土地覆盖数据集的基本信息。
数据名称 |
MCD12Q1 |
CCI-LC |
全球土地 30 |
时期/年 |
2010 |
2010 |
2010 |
分辨率/m |
500 |
300 |
30 |
整体准确率/% |
71.6 |
70.8 |
80.3 |
传感器 |
MODIS |
MERIS, SPOT-VGT |
Landsat-TM/ETM7, HJ-1A/b |
分类系统 |
IGBP 17 类别 |
FAO LCCS 22 类别 |
10 节课 |
分类方法 |
决策树 |
神经网络 |
基于 POK |
创作者 |
NASA |
ESA |
NASG |
下载数据网址 |
https://ladsweb.modaps. eosdis.nasa.gov/search/
|
http://maps.elie.ucl.ac. be/CCI/viewer/
|
http://www.globallandcover.com/GLC30Download/DownLoad.aspx
|
注:NASA 是美国国家航空航天局;ESA 是欧洲航天局;NASG 是中国国家测绘地理信息局。
2.3. 数据预处理
根据多源数据融合的要求,必须对数据进行预处理,包括上述三种土地利用/土地覆盖分类数据,这些数据与研究区域的矢量数据进行了拼接和裁剪,以获得边界一致的土地利用/土地覆盖分类数据集。为了防止面积失真,这三个数据集统一为 WGS 1984 圆柱等面积投影。采用最大面积聚合方法将三个数据集转换为
分辨率,选择 300 米分辨率的主要原因是 300 米分辨率的数据集具有相对较优的分类结果。三个数据集的土地利用/土地覆盖分类系统[11,14,32]进行了合理的排列,排列后的类型代码及相应关系如表 2 所示。
表 2. 三个土地利用/土地覆盖数据集的分类系统。
MCD12Q1-2010 |
CCI-LC2010 |
全球土地 30-2010 |
|
120 |
耕地,雨养,草本覆盖 |
11 |
耕地 |
10 |
农田,雨养,树木或灌木覆盖 |
12 |
耕地,灌溉或洪水后 |
20 |
140 |
马赛克自然植被/农田 (
) |
30 |
马赛克农田/自然植被 (
) |
40 |
常绿阔叶林 |
20 |
树冠,阔叶,常绿,封闭到开放 |
50 |
森林 |
20 |
落叶阔叶林 |
|
树冠,阔叶,落叶,封闭 |
61 |
落叶阔叶林 |
40 |
树冠,阔叶,落叶,开放 |
62 |
常绿针叶林 |
10 |
树冠,针叶,常绿,封闭 |
71 |
常青针叶林 |
10 |
树冠,针叶,常绿,开放 |
72 |
落叶针叶林 |
30 |
树冠,针叶,落叶,封闭 |
81 |
树冠,针叶,落叶,开放 |
82 |
混合森林 |
50 |
树冠,混合叶型 |
90 |
30 |
木质草原 |
80 |
马赛克草本覆盖/树木和灌木 (
) |
100 |
草原 |
草原 |
90 |
马赛克树木和灌木/草本植物覆盖 (
) |
110 |
草原 |
100 |
草原 |
130 |
表 2. 续。
MCD12Q1-2010 |
CCI-LC2010 |
全球土地 30-2010 |
封闭灌木丛 |
60 |
常绿灌木丛 |
121 |
|
|
开放灌木丛 |
70 |
落叶灌木林 |
122 |
灌木丛 |
40 |
|
|
树冠,淹没,淡水或咸水 |
160 |
|
|
永久湿地 |
110 |
树冠,淹水,盐水 |
170 |
湿地 |
50 |
|
|
|
180 |
|
|
水 |
170 |
水体 |
210 |
水体 |
60 |
- |
- |
地衣和苔藓 |
140 |
苔原 |
70 |
城市和建筑区 |
130 |
城市地区 |
190 |
|
80 |
贫瘠或植被稀疏 |
160 |
稀疏灌木 稀疏草本覆盖 固结裸露区域 非固结裸露区域
|
|
光秃的土地 |
90 |
雪和冰 |
150 |
永久雪和冰 |
220 |
|
100 |
注:此表中的数字是多源土地利用/土地覆盖数据集原始分类系统的类型代码。
3. 融合原理与方法
3.1. 技术
具体技术如图 2 所示。首先进行了数据收集和预处理。然后,采用基于一致性分析和模糊集理论的融合方法,实现了多源土地利用/土地覆盖分类数据的融合。最后,分析了融合结果的准确性。
图 2. 研究内容和技术方法。(a) 数据收集;(b) 数据预处理;(c) 多源数据融合;(d) 数据准确性分析。
3.2. 建立目标分类系统
需要制定一个科学合理的土地利用/土地覆盖分类系统,特别是在土地利用/土地覆盖遥感分类制图的研究中。参考现有的研究成果[9,11,14,32-34],沿海土地利用/土地覆盖被划分为八种主要类型:农田、森林、草地、灌木地、湿地、人造表面、裸地和永久性雪冰(表 3)。该分类系统具有两个基本特征:(1)所有分类信息均可从上述三种输入数据源中获得,(2) 所有融合结果均可通过遥感影像识别。
表 3. 研究区土地利用/土地覆盖分类系统。
数字 |
类型名称 |
描述 |
1 |
耕地 |
用于农业、园艺和花园的土地。 |
2 |
森林 |
树木覆盖的土地,植被覆盖率超过
。 |
3 |
草原 |
覆盖有自然草的土地,植被覆盖率超过
。 |
4 |
灌木丛 |
灌木覆盖的土地,植被覆盖率超过
。 |
5 |
湿地 |
被水体或湿地植物覆盖的土地。 |
6 |
人工表面 |
人类活动改造的土地。 |
7 |
光秃的土地 |
没有植被覆盖或植被覆盖低于
的土地。 |
8 |
永久雪和冰 |
被永久雪、冰川或冰盖覆盖的土地。 |
根据表 3 中的土地利用/土地覆盖分类系统,三个输入数据源的土地利用/土地覆盖类型被重新分类为八种目标类型,如表 4 所示。值得注意的是,在 CCI-LC2010 中,编码为 40 和 100 的土地利用/土地覆盖类型分别是马赛克农田/自然植被(
)和马赛克草本覆盖/树木和灌木(
)。分析表明,这两种类型对森林比例有利,因此这两种类型都被纳入森林的目标类型。此外,为了方便后续研究,输入数据源中的水体和冻土也被纳入湿地的目标类型。
表 4. 三个数据集中土地利用/土地覆盖类型的对应关系。
目标类型 |
MCD12Q1-2010 |
CCI-LC2010 |
全球土地 30-2010 |
耕地 |
120,140 |
|
10 |
2 森林 |
|
|
20 |
3 草原 |
|
110,130 |
30 |
灌木丛地 |
60,70 |
121,122 |
40 |
5 湿地 |
110,170 |
|
|
6 人工表面 |
130 |
190 |
80 |
7 裸土地 |
160 |
|
90 |
8 永久雪和冰 |
150 |
220 |
100 |
注:此表中的数字是多源土地利用/土地覆盖数据集原始分类系统的类型代码,如表 2 所示。
接下来,三个重新分类的输入数据源(即 MSRmcd-2010、MSRcci-2010 和 MSRgl30-2010)被空间叠加,以确定这三个数据集中土地利用/土地覆盖类型的逐像素对应关系。然后,我们逐像素评估不同数据集的土地利用/土地覆盖类型是否相同,并确定这三个数据集之间的一致性和不一致性[35]。具体而言,对于每个像素,如果三个数据集中有两个或三个使用相同的土地利用/土地覆盖类型,则该像素的类型将被定义为此类型(即一致性,编码为 1-8);如果三个数据集的类型各不相同,则该像素将被定义为不一致,并编码为 9。最后,基于不一致性,三个未重新分类的原始土地利用/土地覆盖分类数据被裁剪,之后将这三个裁剪的数据集与一致性数据拼接,以获得初步融合数据集(即 Fmcd-1、Fcci-1 和 Fgl30-1)。
3.4. 争议的重建
基于模糊集理论的数据融合方法被用于重建上述初始土地利用/土地覆盖融合数据集。
首先,对于每个数据集的初始类型,分配了八个“隶属度”值,以建立与每个目标类型的相应关系,表征每个初始类型属于每个目标类型的程度。值得注意的是,亲和指数被用来指示
“隶属度”。具体来说,如果亲和指数为 4,则初始类型和目标类型相同;如果亲和指数为 0,则两种类型完全不同;如果亲和指数为 1、2 或 3,则随着分数的增加,隶属度变得更强。附录 A-C 分别呈现了三个初始融合数据集的隶属度分数。
其次,每次轮换固定一个像素。如果所有三个初始融合数据集的初始类型为
,则该像素被定义为初始类型;如果所有三个初始融合数据集的初始类型不为
,则初始融合数据集的初始类型和目标类型的隶属度将根据附录 A-C 进行评分。具体公式如下[20]:
其中
是当前像素的行;
是当前像素的列;
是目标类型的代码;
是初始融合数据集的代码;
是像素
在初始融合数据集
中针对目标类型
的分数;
是像素
针对目标类型
的总分。为了消除初始融合数据集中隐藏的误分类,并提高在特征多样区域的评分可信度,像素分数在
领域进行了加权。评分后,比较每个目标类型的总像素分数,然后将像素定义为总分最高的目标类型。因此,最终输出是一组基于 2010 年的海上丝绸之路沿海地区 300 米的土地利用/土地覆盖融合数据(即 FusLULC-2010)。
3.5. 精度分析方法
错误(混淆)矩阵是一种有效的方法,用于测量土地利用/土地覆盖分类数据集中土地利用/土地覆盖类型的分类准确性 [36-38]。通过计算参考数据和待验证数据的生产者准确率(PA)、用户准确率(UA)、总体准确率(OA)和 Kappa 系数(K),可以测量两个数据集之间的一致性。具体公式如下 [39]:
其中
是土地利用/土地覆盖类型;
是正确分类为类型
的像素数量;
是参考数据中类型
的像素数量;
是待验证数据中类型
的像素数量;
是总像素数量。
谷歌地球可以实时为用户提供高分辨率的全球图像数据,这些图像已成为中低分辨率土地利用/土地覆盖遥感制图精度分析的有效参考数据[40]。验证样本收集和制图精度分析的具体过程如下:(1) 基于 ArcGIS,在研究区域内随机生成采样点;(2) 通过叠加分析获取多源土地利用/土地覆盖数据集在采样点的分类信息(即待验证的数据);(3) 根据高分辨率的谷歌地球图像,可以对采样点的土地利用/土地覆盖类型进行视觉解读;值得注意的是,某个采样点的土地利用/土地覆盖类型被定义为采样点周围
区域内最主要的土地类型(即参考数据);(4) 土地利用/土地覆盖的精度分析结果。
遥感制图是基于误差矩阵获得的。此外,进行多源土地利用/土地覆盖数据集的相互验证也很重要[41]。具体而言,将任意两个多源土地利用/土地覆盖数据集进行空间叠加,以获得两个数据集之间土地利用/土地覆盖类型的逐像素对应关系,然后根据混淆矩阵汇总空间叠加结果。最终获得土地利用/土地覆盖类型的空间混淆及其准确性特征。
土地利用/土地覆盖数据集的平均整体一致性和平均特定类型一致性是有效的指标,可以用来定量描述土地利用/土地覆盖分类数据集之间的一致性精度。在本文中,计算了任意两个土地利用/土地覆盖数据集之间的一致性(即计算了两个数据集中具有相同分类类型的像素百分比),然后通过计算该数据集与其他任一数据集之间一致性的平均值,得到了一个数据集的平均整体一致性。此外,计算了任意两个土地利用/土地覆盖数据集之间某一类型的一致性,然后通过计算该类型在该数据集与其他任一数据集之间一致性的平均值,得到了该类型在一个数据集中的平均一致性。具体公式如下: