这是用户在 2024-9-14 9:05 为 https://app.immersivetranslate.com/pdf-pro/2d127615-6f88-42a0-a8e4-bf9e3314b542 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?


一种集成方法,通过数字足迹和辅助地理空间数据生成中国的高分辨率网格人口数据


Jiale Qian a , b a , b ^(a,b){ }^{\mathrm{a}, \mathrm{b}}, Sheng Huang a , b a , b ^(a,b){ }^{\mathrm{a}, \mathrm{b}}, Huimeng Wang e e ^(e){ }^{\mathrm{e}}

国家重点实验室资源与环境信息系统,中国科学院地理科学与资源研究所

 科学,北京,中国

中国科学院大学,北京,中国


c c ^(c){ }^{\mathrm{c}} 腾讯公司 北京,中国


伊利诺伊州西部大学地球、大气和地理信息科学系,美国麦康布

e e ^(e){ }^{\mathrm{e}} School of Surveying and Geo-informatics, Shandong Jianzhu University, Ji’nan, China
}


文章信息

 关键词:


动态人口分布
 数字足迹
 地理空间大数据
 集成学习
 空间依赖性

 摘要


摘要 精细尺度的人口数据集对许多健康和发展应用至关重要。已经提出了相当多的人口估计方法,并生成了多个网格化人口数据集。然而,准确估计每日甚至每小时的人口动态仍然是一个挑战。在本研究中,我们提出了一种集成学习方法,通过整合数字足迹数据集和多个地理空间辅助数据集来应对这一挑战,以估计人口动态。更具体地说,我们使用地理加权回归模型整合了两个非空间树基学习模型,并生成了初步的每小时和每日网格化人口估计。然后,我们根据县级估计及其与网格级协变量的非线性关系调整了精细尺度的人口估计。在充分的模型训练和参数调优后,我们为 2018 年生成了一系列 0.01 度网格化人口地图(FinePop),包括全国每日平均图和省级每小时平均图。 FinePop 的准确性高于 WorldPop 和 LandScan 数据集,这一点从与乡镇级人口普查数据的比较中获得的最高 R 2 ( 0.72 ) R 2 ( 0.72 ) R^(2)(0.72)\mathrm{R}^{2}(0.72) 可以看出。FinePop、WorldPop 和 LandScan 的乡镇人口密度估计的均方根误差分别为 3162、3327 和 3423。FinePop 在揭示交通网络以及小型和大型城市的昼夜人口迁移模式方面也显示出其优势。

 1. 引言


细尺度人口数据集对许多应用至关重要,例如灾害减轻(Hirabayashi 等,2013)、经济发展(Pokhriyal 和 Jacques,2017)、公共卫生(Tatem 等,2012)和生态保护(Venter 等,2016)。人口普查和调查是许多人口数据集的主要来源,尽管它们常常因更新缓慢和间歇性以及空间粒度粗糙而受到批评(Azar 等,2013;Leasure 等,2020;Tatem 和 Linard,2011;Wardrop 等,2018)。此外,人口普查数据集通常由行政或普查单位汇总和发布,这对于许多应用来说通常不够细致。始终需要创新的方法来提供细致和非常细致的时空人口数据集(Deville 等,2014;Tatem,2017)。

许多人口估计方法已被提出并用于生成一些精细的全球网格人口数据集。例如,一种简单的面积加权方案已被用来将普查单位的人口计数重新分配到网格上(Balk et al., 2006; Salvatore et al., 2005; Tobler et al., 1997)。Balk et al.(2006)使用这种方法生成了全球网格人口(GPW)数据集。相同的思路也被用于全球农村城市映射项目(GRUMP),该项目根据卫星夜间灯光数据绘制城市和农村地区的人口地图(Salvatore et al., 2005)。尽管在行政单位内人口分布的空间异质性,这种空间分配方法的使用非常简单。
 表 1

本研究中使用的数据集及其来源。

  • 后缀“_den”表示密度变量。“_dst”表示距离变量。“_avg”表示变量的平均值。
 很少被考虑。

达萨梅特里克建模是另一种细尺度人口映射方法,它利用空间协变量来估计网格化人口(Dobson 等,2000;Jia 和 Gaughan,2016;Li 和 Zhou,2018)。更具体地说,该方法使用从多个辅助地理空间数据集中生成的权重,将普查单位内的人口普查计数分配到网格中。该方法已被用于生成 LandScan 全球人口(Dobson 等,2000)。各种统计方法也被用于生成稳健的细尺度人口估计(Deville 等,2014;Leasure 等,2020;Stevens 等,2015;Yao 等,2017)。例如,Stevens 等(2015)使用随机森林回归模型对人口普查计数进行拆分,并生成 WorldPop 人口数据集。Deville 等(2014)使用对数变换线性回归模型根据手机通话量估计基站的人口密度。达萨梅特里克方法和统计方法在生成年度人口密度地图方面得到了广泛应用。

细时尺度的人口估计仍然是一个挑战。基于普查数据的网格化人口数据集通常每年更新一次,甚至更长时间,因此无法推断年内的人口动态。最近,新兴的地理标记数据,如手机通话记录和地理标记的社交媒体帖子,受到了科学界的广泛关注,因为这些数据集在推断细时分辨率的人类活动和人口分布方面非常有前景(Chen et al., 2018; Deville et al., 2014; Douglass et al., 2014; Liu et al., 2018; Patel et al., 2017)。手机记录提供了拨打电话时的具体时间和地点。当社交媒体平台上发布帖子时,也会记录时空信息。这些地理标记数据也被称为人类的数字足迹,因为它们显示了人类活动的空间范围(Blumenstock et al., 2015; Du et al., 2021; Kosinski et al., 2013; Yi et al., 2020),并可以用于估计人口动态(Liu et al., 2020; Yi et al., 2019)。例如,Deville et al. (2014)利用手机记录推断葡萄牙和法国在多个时间尺度上的人口动态。Patel 等人(2017)确认,整合地理标记的推文可以显著提高人口预测的准确性。然而,需要评估这些方法在细尺度动态人口制图中的可靠性。

还需要新的方法来生成更准确的动态人口估计。在以往的研究中,人口映射中相关协变量的空间依赖性通常未被考虑。常用的达西米特方法(Dobson et al., 2000)、对数线性模型(Deville et al., 2014)、随机森林回归模型(Stevens et al., 2015)通常使用来自普查的独立样本来建立人口变量与协变量之间的关系。模型中未考虑邻近普查单元之间人口变量的空间依赖性,因此,估计未能表征空间中的人口动态。一些近期研究试图通过能够整合空间依赖性的人口估计方法来解决这一问题。这些方法包括地理随机森林(Georganos et al., 2021)、时空回归模型(Lwin et al., 2016)、地理加权回归(Chen et al., 2019)。最近,人口映射中整合多种模型的趋势逐渐显现。例如,Zong et al. (2019)提出了一种深度学习框架,结合了超分辨率卷积神经网络和时间嵌入的长短期记忆模型,以估计人口分布的时空变化。陈等人(2019)将地理加权回归方法与区域到点克里金法结合,以缩小人口估计的尺度。

在本研究中,我们提出了一种集成方法,用于利用数字足迹数据集和多个辅助协变量进行精细尺度动态人口映射。我们的方法特别解决了数据集中固有的空间依赖性,并使用多种非空间和空间模型生成每日和每小时的平均人口密度地图。我们在第 2 节介绍了数字足迹数据集的特征。第 3 节详细阐述了该方法,第 4 节展示了集成方法的评估结果,并将估计精度与其他网格化人口地图进行了比较。

b

图 1. 中国县级人口密度图(a)和人类活动区(b)。

4 还展示了白天和夜间人口密度的差异。最后一部分总结了论文。

 2. 数据


本研究使用多个数据集生成 2018 年的 0.01 度网格人口密度地图。用于本研究的大多数辅助数据集和人口协变量均为 2018 年获取(见表 1)。对于 2018 年不可用的辅助数据集,例如土地利用、道路网络和人口普查数据集,已用最佳可用数据集替代,即那些尽可能接近 2018 年收集的数据。幸运的是,这些数据集在几年内没有显著变化,因此这种时间不一致性不会对我们的人口估计产生重大影响。

 2.1. 人口统计


县和乡镇的人口普查数据用于训练我们的模型并验证我们的人口估计。根据 20151 % 20151 % 20151%20151 \% 国家人口调查推算的常住人口(PRP)估计值适用于中国大陆 31 个省的 2654 个县(图 1)。我们还获得了由程等(2020)从《2016 年中国县级统计年鉴》收集的全国乡镇人口数据。县级普查数据用于训练我们的模型,如第 3.3 节所示。乡镇 PRP 用于评估我们模型推导的网格化人口估计。我们还使用了广东和福建省的乡镇 PRP 来检验我们模型在人口估计方面的表现。根据 2015 年的数据,广东是中国人口最多的省份,也是经济最发达的地区之一。相比之下,福建相对不发达,人口较少,尤其是在北部地区。

我们将我们的人口估计与 2018 年 WorldPop 和 LandScan 人口数据集进行了比较。WorldPop 数据集采用半自动的达西模型方法生成,该方法结合了人口普查与多种辅助数据集之间的关系(Stevens et al. 2015)。该数据集的空间分辨率为三弧秒。LandScan 数据集由橡树岭国家实验室(https://landscan.ornl.gov)开发,采用达西和空间建模方法将人口普查数据分解为网格化人口,同时整合多个辅助地理空间数据集(Dobson et al. 2000)。LandScan 环境人口数据集的空间分辨率为 1 km 1 km ∼1km\sim 1 \mathrm{~km}

 2.2. 数字足迹


从腾讯大数据门户获取的位置请求数据(可在https://heat.qq.com访问,最后访问时间为 2019 年 4 月 2 日)用于生成人类活动的数字足迹。腾讯是中国最受欢迎的社交媒体平台,截至 2018 年拥有近 11 亿活跃用户(https://www.tencent. com/en-us/company.html)。当用户通过腾讯的地图应用程序接口寻求任何基于位置的服务(LBS)时,该平台会生成位置请求记录。与 LBS 相关的请求包括但不限于打车、导航、食品和商品配送请求,这些请求来自包括微信、手机 QQ、腾讯视频、京东、点评、滴滴、美团外卖等移动应用(Yi et al., 2019)。这些请求被聚合到 0.01 -by-0.01 度的网格中,每个网格记录其中的每小时位置请求数量(NLR)。我们收集了 2018 年 1 月 1 日至 2018 年 12 月 31 日的网格化 NLR 数据用于本研究。马等人。 (2019)将 NLR 数据集与中国几个地方的游客数量进行了比较,并认为 NLR 数据集是短期人口动态的一个良好代理测量。


2.3. 人口协变量


本研究中用作人口协变量的数据集包括兴趣点(POI)、土地利用图、夜间灯光、道路网络、地形和水文特征,以及可用的人类定居地图。这些协变量数据集在其他人口估计研究中被广泛使用(Stevens et al., 2015; Yang et al., 2019)。POI 数据集包括与人类活动相关的某些地理实体的名称和坐标。我们从北京大学开放研究数据平台收集了 POI 数据集(https://doi. org/10.18170/DVN/WSXCNM)。该数据集包含超过 6530 万条不同组别的 POI 记录。

我们从高德地图获得了 2016 年道路网络矢量数据。该数据集包含中国的铁路、国道、省道、县乡道路。我们还从中国科学院资源与环境数据云平台获得了 100 m 2015 100 m 2015 100-m2015100-\mathrm{m} 2015 土地利用数据集(http://www.resdc.cn)。该数据集有六个一级和 25 个二级土地利用类别(表 1)。我们还使用了 2018 年无云的日夜带(DNB)复合夜间灯光数据集。该数据集的空间分辨率为 15 弧秒,来自于苏米国家极轨合作伙伴(Suomi-NPP)卫星上的可见光红外成像辐射计套件(VIIRS)仪器。

高程和坡度数据集来自多重误差-

图 2. 网格化人口估计的集成学习方法。

移除改进地形(MERIT)数字高程模型(DEM)和河流网络数据集来自 MERIT 水文数据集,这是一个基于 MERIT DEM 和多个内陆水体地图的全球水文数据集。DEM 和水文数据集的空间分辨率为 3 弧秒,来自东京大学工业科学研究所(http://hydro.iis.u-tokyo.ac. jp/ yamadai/MERIT_DEM/)。我们还纳入了两个人类定居点数据集。第一个数据集是 2.8 弧秒全球城市足迹(GUF),来源于超过 18,000 个 2011-2012 年的 TanSAR-X 和 TanDEM-X 场景(Esch 等,2018)。第二个数据集是 30 米全球人工不透水区(GAIA),来源于 Landsat 影像、夜间灯光数据和 Sentinel-1 合成孔径雷达数据(Gong 等,2020)。

 3. 方法论

 3.1. 数据预处理


本研究旨在利用多个人口协变量生成一系列 0.01 度的人口密度地图。这些协变量包括点和折线矢量数据层,以及空间分辨率细于 0.01 度的栅格数据。

表 1 列出了我们从 0.01 度网格级别和县级人口协变量计算的 42 个变量。带有“_den”后缀的变量描述了特定网格或县内变量的密度。点/折线矢量或栅格数据层的密度定义为特定土地利用类型/定居区域的点数、线性特征长度和面积与网格或县的面积的比率。

带有后缀“_avg”的变量表示它们在网格或县内的均值。带有后缀“_dst”的变量描述到数据变量最近源点的三维表面距离(例如,POI 类别、土地利用类别、道路、河流等)。我们首先计算了原始数据层中每个数据样本(例如,一个点、一条线或一个网格)的表面距离。然后,我们计算了网格或县内数据样本的距离均值,这些均值被用作相应上采样地理单元的“_dst”变量。计算距离和面积变量的原始数据分别投影到等距圆锥投影和阿尔伯斯等面积投影。


NLR 数字足迹协变量在细时间尺度上表征动态人类活动,是本研究中唯一的时间变化变量。数字足迹协变量被聚合为每个网格和每个县的每小时时间序列数据。然后,将聚合的时间序列数据与特定小时的 NLR 总和与我们研究期间该小时的 NLR 总和的比率( 1 / 1 12 / 31 / 2018 1 / 1 12 / 31 / 2018 1//1-12//31//20181 / 1-12 / 31 / 2018 )相乘,以减轻可能由未知数据源扩展在平台上引起的整体增加或减少趋势的影响。相同的思路用于计算人类足迹协变量的每日时间序列数据集。每日和每小时平均层分别用于训练我们的模型,以在多个时间尺度上估计人口密度。

我们使用组合权重分别合并了兴趣点(POI)和土地利用类别。组合权重是通过在县级人口密度与所有变量之间训练随机森林回归模型(Breiman, 2001)来确定的。在模型中,变量的重要性通过均方误差的百分比增加(%IncMSE)来确定。%IncMSE 越高,变量在回归中的重要性就越大。最终,我们获得了 11 个主要的兴趣点和 5 个主要的土地覆盖类别,从而减少了训练数据集的维度。

夜间光照协变量表征了一个网格或县的中位光亮度,来源于每月的遥感图像。通过排除亮度低于设定阈值的区域,减弱了卫星图像上的噪声,该阈值是从中国西北部的无人区(如沙漠和裸地)计算得出的。在本研究中,阈值被定义为所选无人区平均亮度的一个标准差以上。

我们从多个协变量数据集中提取了人类活动区(HAZ),包括日均足迹密度(“nlr”)、夜间光照(“ntl_avg”)、兴趣点密度(“poi_den”)、道路密度(“road_den”)、城市用地密度(“lc1_den”)和不透水表面(“guf_den”和“aia_den”)。HAZ 由包含至少一个非零人类活动相关协变量的网格组成。发现了超过 280 万个 HAZ 网格(图 1b),并用于在网格尺度上训练模型。

a a a\mathbf{a}
d
b
 纪元 c

图 3. 训练模型的评估结果。(a) 显示了 GWR 模型在第二步中估计县级小时平均人口密度的 R 2 R 2 R^(2)\mathrm{R}^{2} 。(b) 显示了一天中的小时平均 NLR 密度。(c) 展示了在第二步中估计县级人口密度时局部 R 2 R 2 R^(2)\mathrm{R}^{2} 的空间变化。(d) 展示了 AutoResNet 模型训练周期的损失曲线。


3.2. 动态人口映射


集成学习方法通过三个主要步骤整合多个模型以解构人口普查数据(图 2)。首先,我们使用地理加权回归(GWR)将两个基于树的回归模型结合起来,以建立协变量与县级人口密度数据集之间的空间关系。经过训练后,该关系用于基于网格级协变量生成初步的下调人口地图。其次,我们基于数字足迹协变量在指定的时间尺度上估计县级人口密度,并根据县级估计调整初步的网格级估计。第三,我们进一步使用深度残差网络细化网格估计,以识别调整后估计与网格级协变量之间的非线性关系。为了在不同时间尺度上获得网格化人口地图,我们改变时间粒度,并计算不同时间尺度上的平均数字足迹协变量,按照相同的程序开发新模型。图 2 概述了集成方法的一般过程。


3.2.1. 第一步:使用 GWR 进行集成下采样


随机森林(Breiman, 2001)和 XGBoost(Chen 和 Guestrin, 2016)模型通过 GWR(Fotheringham 等, 2002)结合在一起。这两种树模型都是基于决策树学习算法开发的,但优化策略不同。随机森林采用“装袋”策略,从一组个体回归树中生成稳健的估计(Breiman, 2001)。它从训练集中进行有放回的随机抽样(即自助抽样)来构建每棵树,并生成个体树的平均预测。XGBoost 是一个可扩展的树“提升”系统,采用梯度提升进行预测(Chen 和 Guestrin, 2016)。梯度提升以加法方式训练模型,通过贪婪地寻找最佳分裂来最小化正则化目标迭代,从而生长出最优树。然而,这些树模型通常不考虑协变量的空间依赖性。

我们随后使用 GWR 生成了县级人口密度与随机森林和 XGBoost 模型得出的估计人口密度之间的加权线性回归模型(方程 1)。GWR 模型整合了人口估计中协变量的空间依赖性。

其中 y i y i y_(i)y_{\mathrm{i}} 表示 i th i th  i^("th ")\mathrm{i}^{\text {th }} 县的人口密度, x i 1 x i 1 x_(i1)x_{i 1} x i 2 x i 2 x_(i2)x_{i 2} 分别表示随机森林和 XGBoost 生成的人口估计, α i 1 α i 1 alpha_(i1)\alpha_{i 1} α i 2 α i 2 alpha_(i2)\alpha_{i 2} 表示县特定的系数, ε i ε i epsi_(i)\varepsilon_{i} 表示 i th i th  i^("th ")\mathrm{i}^{\text {th }} 县的随机误差。我们使用自适应高斯核来确定分配给邻近样本点的权重,并使用修正的赤池信息量准则来确定定义局部领域的核的最优带宽(Fotheringham 等,2002)。

在这一步,我们使用县级数据集训练模型,然后利用网格级协变量层生成初步的下调人口密度。我们使用网格搜索方法调整随机森林和 XGBoost 中的超参数,该方法对手动选择的超参数空间的子集进行全面搜索(见补充材料中的表 S1),以获得最佳输出。


3.2.2. 第 2 步:与人口普查对齐


在第二步中,第一步生成的初步网格化人口密度地图被调整以匹配县级人口普查数据。这种调整是必要的,以缓和在下尺度预测中可能出现的极端估计(Stevens 等,2015)。我们使用人口普查数据通过以下方程调整网格化的日均人口密度地图:
y i = y i × p C j C y j A j / j C A j y i = y i × p C j C y j A j / j C A j y_(i)^(')=y_(i)xx(p_(C))/(sum_(j in C)y_(j)^(**)A_(j)//sum_(j in C)A_(j))y_{i}^{\prime}=y_{i} \times \frac{p_{C}}{\sum_{j \in C} y_{j}^{*} A_{j} / \sum_{j \in C} A_{j}},

其中 y i y i y_(i)y_{i} y j y j y_(j)y_{j} 表示 C th C th  C^("th ")C^{\text {th }} i th i th  i^("th ")\mathrm{i}^{\text {th }} j th j th  j^("th ")\mathrm{j}^{\text {th }} 网格的人口密度初步估计; p C p C p_(C)p_{C} 表示 C th C th  C^("th ")C^{\text {th }} 县的人口密度, A j A j A_(j)A_{j} 表示 j th j th  j^("th ")\mathrm{j}^{\text {th }} 网格的面积。

基于各县的人口普查数据与中国大陆相应县的小时平均位置请求数据之间的关系,对网格化的小时平均人口密度估计进行了调整。我们使用地理加权回归(GWR)来识别这种关系,然后利用以下方程预测相应县的小时平均人口。
log ( p i , t ) = α i , t log ( l i , t ) + ε i , t log p i , t = α i , t log l i , t + ε i , t log(p_(i,t))=alpha_(i,t)log(l_(i,t))+epsi_(i,t)\log \left(p_{i, t}\right)=\alpha_{i, t} \log \left(l_{i, t}\right)+\varepsilon_{i, t}

其中 i i ii 表示 i th i th  i^("th ")\mathrm{i}^{\text {th }} 县, t t tt 表示小时时间尺度, p p pp 表示一个县的动态人口密度, l l ll 表示总和
 表 2

集成学习方法中模型的性能评估。
 时间尺度  测试准确性  步骤 1
 随机森林 XGBoost  数据融合的 GWR
 广东  福建
 每小时平均 RMSE 606 ± 13 606 ± 13 606+-13606 \pm 13 592 ± 21 592 ± 21 592+-21592 \pm 21 132 ± 88 132 ± 88 132+-88132 \pm 88 - 707 ± 58 707 ± 58 707+-58707 \pm 58 523 ± 88 523 ± 88 523+-88523 \pm 88
%RMSE 121 ± 3 121 ± 3 121+-3121 \pm 3 118 ± 4 118 ± 4 118+-4118 \pm 4 26 ± 18 26 ± 18 26+-1826 \pm 18 - 120 ± 10 120 ± 10 120+-10120 \pm 10 169 ± 28 169 ± 28 169+-28169 \pm 28
 每日平均 R 2 R 2 R^(2)\mathrm{R}^{2} 0.951 0.945 0.993 0.984 0.950 0.912
RMSE 603 638 260 - 693 748
Time scale Test accuracy Step 1 https://cdn.mathpix.com/cropped/2024_05_10_6fcaa3710dea69835928g-06.jpg?height=132&width=374&top_left_y=260&top_left_x=1174 https://cdn.mathpix.com/cropped/2024_05_10_6fcaa3710dea69835928g-06.jpg?height=87&width=338&top_left_y=263&top_left_x=1574 Random Forest XGBoost GWR for data fusion Guangdong Fujian Hourly average RMSE 606+-13 592+-21 132+-88 - 707+-58 523+-88 %RMSE 121+-3 118+-4 26+-18 - 120+-10 169+-28 Daily average R^(2) 0.951 0.945 0.993 0.984 0.950 0.912 RMSE 603 638 260 - 693 748| Time scale | Test accuracy | Step 1 | | | ![](https://cdn.mathpix.com/cropped/2024_05_10_6fcaa3710dea69835928g-06.jpg?height=132&width=374&top_left_y=260&top_left_x=1174) | ![](https://cdn.mathpix.com/cropped/2024_05_10_6fcaa3710dea69835928g-06.jpg?height=87&width=338&top_left_y=263&top_left_x=1574) | | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | | | Random Forest | XGBoost | GWR for data fusion | | | | | | | | | | | Guangdong | Fujian | | Hourly average | RMSE | $606 \pm 13$ | $592 \pm 21$ | $132 \pm 88$ | - | $707 \pm 58$ | $523 \pm 88$ | | | %RMSE | $121 \pm 3$ | $118 \pm 4$ | $26 \pm 18$ | - | $120 \pm 10$ | $169 \pm 28$ | | Daily average | $\mathrm{R}^{2}$ | 0.951 | 0.945 | 0.993 | 0.984 | 0.950 | 0.912 | | | RMSE | 603 | 638 | 260 | - | 693 | 748 |
  •  调整了 R 2 R 2 R^(2)\mathrm{R}^{2}

** 评估了广东和福建省的网格。

该县的地点请求中, α α alpha\alpha ε ε epsi\varepsilon 分别表示县特定系数和随机误差。

GWR 模型是通过县级人口密度和我们研究区域内的每小时平均位置请求数据进行训练的。一旦计算出县级每小时平均人口密度,就会使用公式(2)进一步调整,其中普查人口密度 ( p C ) p C (p_(C))\left(p_{C}\right) 被预测的每小时平均人口密度 ( p i , t ) p i , t (p_(i,t))\left(p_{i, t}\right) 替代。


3.2.3. 第三步:拟合深度残差网络


在第三步中,使用调整后的网格估计与网格级协变量之间的关系进一步细化了网格化人口地图。我们使用基于自编码器的残差深度网络(AutoResNet)(李,2019)来推导这种关系。AutoResNet 能够识别协变量与因变量之间的非线性关系,以及高分辨率数据集中潜在的空间连续性(李,2019)。本质上,AutoResNet 是一个对称的神经网络,具有多个编码和解码层。它在编码层和解码层之间生成具有相同节点数量的残差连接,以解决梯度消失/爆炸问题(陈等,2021)。在训练 AutoResNet 时,细尺度网格的坐标被整合,以考虑协变量的空间自相关性。

我们训练了 AutoResNet 模型,然后用它生成了基于网格级协变量的调整后的网格估计。完全训练的模型在网格协变量和调整后的网格估计之间产生了最佳的非线性拟合。然后,我们使用训练模型生成的网格估计作为最终的精细化人口估计。AutoResNet 模型实现了 46 个输入节点(即 44 个协变量和两个地理坐标)和一个输出节点。该模型有五个隐藏编码层,每层分别有 256 , 256 , 128 , 64 256 , 256 , 128 , 64 256,256,128,64256,256,128,64 和 32 个节点。模型还有一个中间层,具有 16 个节点用于潜在表示,以及五个解码层。我们迭代运行模型,直到损失函数停止下降或达到最大轮次。该研究中最大轮次设置为 200,足够获得可接受的输出(见第 4.1 节和图 3 中的结果)。批量大小通过交叉验证最佳选择为 64、128、256 或 1024。


3.3. 模型评估与准确性比较


在集成学习模型中使用了不同的策略来评估算法。在模型训练过程中,我们采用了 10 折交叉验证策略来验证随机森林和 XGBoost 算法。县级人口普查数据集被用作真实值。因此,2654 个县的人口密度数据在交叉验证中被随机分成 10 个样本量相等的集合。相比之下,留一法交叉验证策略被用来验证 GWR,因为它需要大量样本来建立可靠的局部关系。


为了评估在网格规模上实现的 AutoResNet 算法,我们保留了 30 % 30 % 30%30 \% 个 HAZ 网格作为测试数据,以测量微调模型的准确性。其余的 HAZ 网格中, 70 % 70 % 70%70 \% 个用于模型训练,剩下的 30 % 30 % 30%30 \% 个用于超参数调优。所有样本均采用分层随机抽样方法获得,评估指标包括决定系数(即 R 2 R 2 R^(2)R^{2} 和调整后的 R 2 R 2 R^(2)\mathrm{R}^{2} )、均方根误差(RMSE)以及均方根误差与平均人口密度的比率(%RMSE)。

FinePop 每日平均人口密度地图与 WorldPop 和 LandScan 以及普查数据进行了比较,以评估其在县和乡镇级别的准确性。我们根据行政单位区域内的网格估计计算了每个县或乡镇的人口密度,然后与相应的普查人口密度进行了比较。福建和广东的乡镇数据以相同方式处理。乡镇级评估使我们能够在更细的尺度上检验集成学习方法的可预测性。

我们通过检查 FinePop 人口密度的昼夜差异来验证每小时平均的 FinePop,因为没有可用的真实数据。我们首先分别计算了从上午 11 点到 4 pm 4 pm 4pm4 \mathrm{pm} 的白天和从 11 pm 11 pm 11pm11 \mathrm{pm} 到凌晨 4 点的夜间六个小时 FinePop 地图的平均值。然后,我们使用 0.1 度的滤波器从两个平均地图之间的差异中识别出局部人口密度峰值。人口密度低于 1000 人/ km 2 km 2 km^(2)\mathrm{km}^{2} 的小峰值被排除,以突出显示具有显著昼夜变化的主要区域。我们调查了峰值周围的人口分布模式,以验证剧烈的昼夜变化是否与我们对城市人口移动的观察一致。

 4. 结果

 4.1. 模型评估


表 2 显示了经过适当算法训练和超参数调优后的集成学习方法的性能。随机森林和 XGBoost 模型在小时人口动态方面表现相当好, R 2 R 2 R^(2)R^{2} 约为 0.95,均方根误差(RMSE)约为 600。由随机森林和 XGBoost 模型融合生成的 GWR 模型进一步改善了人口估计, R 2 R 2 R^(2)\mathrm{R}^{2} 为 0.99,RMSE 为 132,表明空间依赖的整合改善了人口建模。

在该方法的第二步中,经过我们的每小时和每日数据训练的 NLR 密度与县级人口密度之间的局部加权回归模型显示调整后的 R 2 R 2 R^(2)\mathrm{R}^{2} 超过 0.98。图 3a 显示了关于每小时数据的 R 2 R 2 R^(2)R^{2} 变化,在凌晨 4 点到 5 am 5 am 5am5 \mathrm{am} 之间,当没有显著的 NLR 相关人类活动时,最低值为 0.976(图 3b)。在 9 pm 9 pm 9pm9 \mathrm{pm} 10 pm 10 pm 10pm10 \mathrm{pm} 之间发现的最大 R 2 R 2 R^(2)R^{2} 为 0.984,此时大多数人都在家,NLR 推导的人口接近普查计数。

a a a\mathbf{a}

图 4. 中国的网格化人口密度地图(a)以及县级(b)和乡级(c)的百分比残差图。

模型性能在空间上也有所不同(图 3c)。使用每日数据集训练的 GWR 模型的局部 R 2 R 2 R^(2)\mathrm{R}^{2} 在中国西部略低于东部。在西藏的 33 个县中,该指标低于 0.9,最低值为 0.845,表明该地区模型性能稍差。这可能归因于该偏远地区人口分布稀疏和 NLR 样本不足。

在第三步,AutoResNet 模型在训练过程中达到最大迭代次数时收敛并产生稳定的输出(图 3d)。我们评估了每小时和每日的 AutoResNet 模型。
 表 3

中国人口密度地图的准确性比较。
 准确性指标  县级规模  乡镇规模
FinePop  世界人口  土地扫描 FinePop  世界人口  土地扫描
R 2 R 2 R^(2)\mathrm{R}^{2} 0.70 0.92 0.98 0.72 0.69 0.67
RMSE 1562 809 361 3162 3327 3423
Accuracy metric County scale Township scale FinePop WorldPop LandScan FinePop WorldPop LandScan R^(2) 0.70 0.92 0.98 0.72 0.69 0.67 RMSE 1562 809 361 3162 3327 3423| Accuracy metric | County scale | | | Township scale | | | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | | FinePop | WorldPop | LandScan | FinePop | WorldPop | LandScan | | $\mathrm{R}^{2}$ | 0.70 | 0.92 | 0.98 | 0.72 | 0.69 | 0.67 | | RMSE | 1562 | 809 | 361 | 3162 | 3327 | 3423 |
a a a\mathbf{a}
 卫星图像
 卫星图像
FinePop
FinePop
 世界人口
 世界人口
  km 2 km 2 km^(2)\mathrm{km}^{2}
 土地扫描
 土地扫描

无人口分布

图 5. 福建(a)、广东(b)、城市附近的放大样本区域(c)和广东的农村地区(d)的人口密度地图比较,这些地图由普查、FinePop、WorldPop 和 LandScan 生成。图(d)中的白线显示了矢量化的乡村道路。

使用来自广东和福建的测试网格,结果表明这些模型在网格化人口估计的挑战下表现非常好。对于使用广东数据训练的模型,平均 R 2 R 2 R^(2)\mathrm{R}^{2} 约为 0.95,平均%RMSE 约为 120。相比之下,使用福建数据训练的模型显示出稍低的 R 2 R 2 R^(2)\mathrm{R}^{2} 和更高的%RMSE。


4.2. 中国网格化人口地图


网格化的日均 FinePop 和县级人口普查人口密度地图显示了中国的相似分布模式(图 4)。FinePop 显示,中国总人口的 94 % 94 % ∼94%\sim 94 \% 位于胡焕庸线以东,所占中国陆地面积的 43 % 43 % ∼43%\sim 43 \% 。这种分布模式与之前的研究一致(陈等,2016;胡,1990;齐等,2015)。网格化的日均 FinePop 还显示出城市地区,特别是北京、上海、广州和深圳等特大城市的人口显著聚集。

我们根据三个县和乡镇的人口数据集计算了人口密度,并分别与普查数据进行了比较。县级人口密度来源于


FinePop 地图在优势上不如 WorldPop 和 LandScan,表现为较低的 R 2 R 2 R^(2)\mathrm{R}^{2} (0.7)和较高的 RMSE(1562),与其他两个数据集相比。然而,FinePop 的乡镇人口密度地图优于 WorldPop 和 LandScan。FinePop 乡镇人口密度地图的 R 2 R 2 R^(2)R^{2} 为 0.72,高于 WorldPop 和 LandScan。FinePop 的 RMSE 低于 WorldPop 和 LandScan。表 3 中的结果显示,FinePop 在县和乡镇尺度上的下采样精度始终保持在中等水平。WorldPop 和 LandScan 的分配策略在县级产生了非常准确的估计,但在乡镇级则不然。

我们进一步使用网格地图与普查数据之间的百分比残差来评估这三个人口数据集的准确性。百分比残差定义为观察值与预测值之间差异与观察值的比率(Stevens et al. 2015)。如图 4b 所示,FinePop 在县级尺度上的百分比残差在中国大部分地区介于-0.2 到 0.2 之间,并且比 WorldPop 和 LandScan 的极端值更少。FinePop 的百分比残差的均值和标准差分别为-0.02 和 0.12,均低于 WorldPop 和 LandScan。然而,在乡镇尺度上,
a

f

图 6. 镇级普查人口密度与 FinePop、WorldPop 和 LandScan 的对比。

在 FinePop 中,百分比残差的极端值更多。如图 4c 所示,FinePop 和 WorldPop 的百分比残差值相似且均值相等。WorldPop 在抑制极端值方面略优于 FinePop,这表现在百分比残差的标准差较低。FinePop 和 WorldPop 在预测误差方面均优于 LandScan,特别是在中国东南部的城镇中。


4.3. 动态人口地图的区域分析


4.3.1. 日均地图上观察到的差异


我们比较了广东和福建省的 FinePop、WorldPop 和 LandScan 的日均人口密度地图与普查数据集(图 5)。总体而言,这三张地图有许多相似之处,尤其是在城市地区的 FinePop 和 LandScan 之间。WorldPop 将更多的人口分配到城市地区,特别是那些人口密度超过 2000 人的地区。FinePop 和 WorldPop 都显示出从城市到农村地区的人口密度逐渐下降,因为它们在估算人口时考虑了空间依赖性。然而,LandScan 则显示出从城市到农村地区的人口密度急剧下降(图 5c)。

值得注意的是,FinePop、WorldPop 和 LandScan 在没有显著人类活动的地区显示出明显的差异(图 5c)。例如,FinePop 在几乎没有人类活动的湖泊和林地上分配了零人口。相比之下,WorldPop 和 LandScan 则在这些地区分配了非常低的人口密度。FinePop 地图突出了野生区域,对于研究人类活动对自然环境的干扰具有重要价值。

FinePop 地图还提供了轻型道路的更多细节。在乡村道路上,FinePop 地图显示了一系列低人口密度的连续网格(图 5d)。相比之下,这种细节在 WorldPop 和 LandScan 地图上几乎无法区分。FinePop 地图甚至显示了在现有道路数据集中尚未矢量化的道路。例如,除了矢量化的道路外,图 5d 中的 FinePop 地图还显示了另一条连接地图上两个村庄的乡村道路。这条道路的特点是由一系列低人口密度的连续网格组成。

a a a\mathbf{a}
b

图 7. 从集成方法的第 1 步到第 3 步的改进人口估计,表明 R 2 R 2 R^(2)\mathrm{R}^{2} 增加和%RMSE 减少。
 表 4

广东和福建城镇人口密度的准确性评估。
 准确度指标  广东  福建
FinePop  世界人口  土地扫描 FinePop  世界人口  土地扫描
R 2 R 2 R^(2)\mathrm{R}^{2} 0.81 0.83 0.73 0.83 0.71
RMSE 1806 1739 2150 1168 1480 1522
%RMSE 115 111 137 115 145 149
Accuracymetric Guangdong Fujian FinePop WorldPop LandScan FinePop WorldPop LandScan R^(2) 0.81 0.83 0.73 0.83 0.71 RMSE 1806 1739 2150 1168 1480 1522 %RMSE 115 111 137 115 145 149 | Accuracymetric | Guangdong | | | | Fujian | | | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | | FinePop | WorldPop | LandScan | | FinePop | WorldPop | LandScan | | $\mathrm{R}^{2}$ | 0.81 | 0.83 | 0.73 | | 0.83 | 0.71 | | | RMSE | 1806 | 1739 | 2150 | | 1168 | 1480 | 1522 | | %RMSE | 115 | 111 | 137 | 115 | 145 | 149 | |

背景网格没有人口。高分辨率卫星图像确认了这条道路的存在。


4.3.2. 区域地图的准确性比较


我们通过与乡镇级普查数据集进行比较,评估了广东和福建的每小时和每日平均 FinePop 地图的准确性。如表 3 所示,广东和福建的每日平均 FinePop 在两个省份的表现优于 LandScan,显示出更高的 R 2 R 2 R^(2)\mathrm{R}^{2} 。相比之下,福建的每日平均 FinePop 地图的 R 2 R 2 R^(2)\mathrm{R}^{2} 高于 WorldPop,但广东的 R 2 R 2 R^(2)\mathrm{R}^{2} 则较低。这种不一致可能归因于不同方法在与人口密度等因素相关的下行缩放性能的差异,具体将在第 4.4 节中讨论。图 6 a 6 a 6a6 \mathrm{a} b b b\mathrm{b} 显示 FinePop 实际上低估了广东几个高人口密度城镇的人口密度。


4.3.3. FinePop 的准确性提升


我们进一步检查了在我们的集成方法中,人口估计如何逐步改善,通过将乡镇日均地图与福建和广东省的普查数据进行比较,以及将县日均地图与中国大陆 31 个省的普查数据进行比较。图 7 显示了中国以及福建和广东的改进网格人口密度估计。更具体地说, R 2 R 2 R^(2)\mathrm{R}^{2} 增加了 4 % 4 % ∼4%\sim 4 \% ,而 % RMSE % RMSE %RMSE\% \mathrm{RMSE} 减少了 a。
b

图 8. FinePop、WorldPop 和 LandScan 与人口普查数据集的比较。
a a a\mathbf{a}
b
  km 2 km 2 km^(2)\mathrm{km}^{2}
c

图 9. 白天和夜间人口之间的差异以及与广东( a a a\mathrm{a} 和 c)和福建(b 和 d)省当地人口密度峰值相关的差异变化。差异的值按当地最大值进行缩放。到局部峰值的距离按差异从负值反弹到正值的最短距离进行缩放。

在我们的集成学习方法中,从步骤 1 到步骤 3, 6 % 6 % ∼6%\sim 6 \% 在中国各地的表现。对于广东和福建省, R 2 R 2 R^(2)\mathrm{R}^{2} 的增加量和 %RMSE 的减少量更高。结果确认我们方法的最后两个步骤进一步改善了人口估计结果。我们还注意到,平均准确度在第二步后上升,但在第三步后下降。这表明,在第二步中将网格估计与县级普查数据对齐可以改善乡镇级的估计。然而,AutoResNet 模型中的非线性拟合可能会在中国某些省份削弱这种一致性。尽管如此,第三步仍然对调整网格估计以更好地与比粗略行政级别得出的网格协变量更异质的网格协变量相关是有价值的,整个方法在乡镇级比较中实现了最高的 R 2 R 2 R^(2)R^{2} (表 4)。


4.4. 估计准确性的变化


FinePop、WorldPop 和 LandScan 的准确性与广东和福建省各乡镇的人口密度和建成区比例相关(图 8)。在人口密度超过 100 人的乡镇中,FinePop 的 %RMSE 下降了超过一半(图 8a)。在人口密度低于 100 人的小镇中,FinePop 的 %RMSE 略高于 LandScan 和 WorldPop。然而,在人口密度较高的城镇中,FinePop 始终优于 LandScan。除了在人口密度在 1000 到 5000 人之间的城镇中,FinePop 也优于 WorldPop。

三个数据集的%RMSE 值在建筑用地比率较高的城镇中较低(图 8b)。FinePop 在所有建筑用地比率类别中表现优于 LandScan。相比之下,WorldPop 在建筑用地比率低于 0.2 或高于 0.8 的城镇中显示出更好的准确性,%RMSE 较低。


4.5. 人口密度的昼夜变化


白天(从 11 am 11 am 11am11 \mathrm{am} 4 pm 4 pm 4pm4 \mathrm{pm} )和夜晚(从 11 pm 11 pm 11pm11 \mathrm{pm} 4 am 4 am 4am4 \mathrm{am} )FinePop 地图之间的差异显示了城市人口动态


在小城市和大城市中存在差异(图 9)。图 9 中的正值表明白天的人口密度高于夜间的人口密度。相反,负值则表示相反,即夜间的人口密度高于白天。在连州、罗定、松溪和宁化等小城市中,市中心的正人口密度值被负值包围。这种模式表明,市中心是小城市白天人类活动的主要场所,并吸引附近和相对远离的区域的居民。

然而,在小城市中观察到的模式在大城市中并不存在。例如,在广州的荔湾区、东莞、福州的晋安区和厦门的思明区发现了交错的正负值。在珠江三角洲高度城市化的城市中,正值网格往往与周围散布的负值网格相连。这种分布模式表明,大城市通常拥有多个地方商业和服务中心,吸引了更多来自附近网格的人。

图 9 还显示了城市对之间的正值线性特征。这些线性特征模仿了广东和福建省的交通网络。主要道路通常在白天交通繁忙,因此在图 9 中具有正的网格人口值。

 5. 结论


我们提出了一种集成学习方法,通过人类的数字足迹和其他大空间数据,将人口普查数据分解为细时间尺度的网格化人口密度。该方法包括三个主要步骤。首先,我们使用县级数据集训练随机森林和 XGBoost 回归模型,然后结合这两个模型,使用地理加权回归(GWR)生成特定时间尺度的初步网格值。其次,初步网格估计根据县级人口密度进行比例调整,这些人口密度是通过在相同时间尺度下使用 GWR 模型从 NLR 推断得出的。最后,我们使用 AutoResNet 模型生成调整后的网格值与协变量之间的非线性关系,并利用该关系生成最终的网格化人口密度。

我们使用集成方法生成了一个新的多尺度人口数据集(FinePop),其估计准确性优于 WorldPop 和 LandScan。与普查数据集相比,FinePop 地图的 R 2 R 2 R^(2)R^{2} 为 0.72,均方根误差(RMSE)为 3162。FinePop 在更好地揭示荒野地区和轻型道路方面也优于 LandScan 和 WorldPop。我们的准确性评估还表明,FinePop 的表现与人口密度和建筑面积比率相关。

每小时的 FinePop 地图显示了中国城市中不同的昼夜人口分布模式。市中心通常在白天更为拥挤,而在小城市的夜晚则人口较少。然而,在大城市中并未发现这种模式,这表明大城市居民的生活方式截然不同。

我们在本研究中提出的集成学习方法显著提高了人口估计的准确性,主要有以下几个原因。首先,与其他方法不同,FinePop 仅将人口分配到有人类活动的区域,而不是整个关注区域。这种策略可以减少将人口分配到偏远荒野地区的错误。其次,集成学习方法整合了人口密度与相关协变量之间的空间依赖性,以进一步提高估计的准确性。最后,多个学习模型的集成可以减少细网格上人口密度的极端估计。

值得注意的是,如果我们在本研究中使用的数据集没有时间差异,结果可能会进一步改善。我们在本研究中使用了最佳可用数据集,即 2015 年的人口普查数据作为真实数据,以及 2018 年的 NLR 数据集,假设在三年间没有显著的人口变化。我们相信,当新的数据集可用时,结果可以得到改善。本研究从 NLR 数据集中推断人口分布,而不确定性可能会影响最终网格估计的准确性。例如,NLR 数据集可能无法准确记录居住在偏远地区以及老年人和儿童群体的活动,因为他们较少接触移动位置服务。如果是这样,这些人口群体在 FinePop 地图中将被低估。整合多个位置感知数据集,如带地理标签的微博、带地理标签的照片、手机通话,可能会减轻数据偏差并改善人口估计。 尽管存在这些缺点,日常和每小时的网格人口密度地图在许多应用中仍然非常有用,例如量化对流行病或自然灾害的暴露、衡量人类对生态系统的影响等。

 资金


本研究得到了中国国家重点研发计划的资助,编号 2017YFC1503003,编号 2017YFB0503605;中国国家自然科学基金的资助,编号 41901395。


利益冲突声明


作者声明,他们没有已知的竞争性财务利益或个人关系,这些关系可能会影响本文所报告的工作。

 参考文献


Azar, D., Engstrom, R., Graesser, J., Comenetz, J., 2013. 使用多分辨率卫星影像和地理空间数据生成细尺度人口层。遥感环境 130, 219-232. https://doi.org/10.1016/j.rse.2012.11.022.

Balk, D.L., Deichmann, U., Yetman, G., Pozzi, F., Hay, S.I., Nelson, A., 2006. 确定全球人口分布:方法、应用和数据。寄生虫学进展。 10.1016 / 10.1016 / 10.1016//10.1016 / S0065-308X(05)62004-0。

布伦斯托克, J., 卡达穆罗, G., 翁, R., 2015. 从手机元数据预测贫困和财富. 科学 (80-. 350 (6264), 1073-1076.

布雷曼, L., 2001. 随机森林. 机器学习. https://doi.org/10.1023/A: 1010933404324

陈, J., 裴, T., 肖, S.-L., 陆, F., 李, M., 程, S., 刘, X., 张, H., 2018. 使用手机位置数据对城市人口进行细粒度预测. 国际地理信息科学杂志 32 (9), 1770-1786. https://doi.org/10.1080/ 13658816.2018 .1460753).

陈明,龚艳,李勇,卢丹,张华,2016。胡焕庸线两侧的人口分布与城市化:回答总理的问题。《地理科学》26(11),1593-1610。https://doi.org/10.1007/s11442-016 1346 4 1346 4 1346-41346-4

陈, T., Guestrin, C., 2016. XGBoost: 一种可扩展的树提升系统。ACM SIGKDD 国际会议论文集,知识发现与数据挖掘,13-17-Augu, 785-794. https://doi.org/ 10.1145 / 2939672.2939785 10.1145 / 2939672.2939785 10.1145//2939672.293978510.1145 / 2939672.2939785

陈, Y., 张, R., 葛, Y., 金, Y., 夏, Z., 2019. 使用地理加权区域到点回归克里金法对普查数据进行降尺度以进行网格化人口映射. IEEE Access 7, 149132-149141. https://doi.org/10.1109/ACCESS.2019.2945000.

陈, Y., 施, K., 葛, Y., 周, Y., 2022. 使用多尺度双流卷积神经网络的时空遥感图像融合. IEEE Trans. Geosci. Remote Sens. 60, 1-12. https://doi.org/10.1109/TGRS.2021.3069116.

程, Z., 王, J., 葛, Y., 2020. 在中国以 1 公里分辨率绘制月度人口分布和变化. 国际地理信息科学杂志 00, 1-19. https:// doi.org/10.1080/13658816.2020.1854767.

德维尔, P., 林纳德, C., 马丁, S., 吉尔伯特, M., 史蒂文斯, F.R., 高恩, A.E., 布朗德尔, V.D., 塔特姆, A.J., 2014. 使用手机数据进行动态人口映射. 美国国家科学院院刊 111 (45), 15888-15893. https://doi.org/10.1073/ pnas. 1408439111.

Dobson, J.E., Bright, E.A., Coleman, P.R., Durfee, R.C., Worley, B.A., 2000. LandScan:一个用于估计风险人群的全球人口数据库。摄影测量与遥感工程 66, 849-857。

道格拉斯, R.W., 迈耶, D.A., 拉姆, M., 莱德奥特, D., 宋, D., 2014. 基于电信数据的高分辨率人口估计. EPJ 数据科学. 4, 1-13. https:// doi.org/10.1140/epjds/s13688-015-0040-6.

杜, Y., 屠, W., 梁, F., 易, J., 2021. 人类在青藏高原的数字足迹:节日期间的变化及其对自然保护区的影响. 地理科学杂志 31 (2), 179-194. https://doi.org/10.1007/s11442-021-1841-0.

Esch, T., Bachofer, F., Heldens, W., Hirner, A., Marconcini, M., Palacios-Lopez, D., Roth, A., Üreyen, S., Zeidler, J., Dech, S., Gorelick, N., 2018. 我们生活的地方——全球城市足迹的成就与计划演变的总结。遥感 10 (6), 895. https://doi.org/10.3390/rs10060895

Fotheringham, A.S., Brunsdon, C., Charlton, M., 2002. 地理加权回归:空间变化关系的分析。约翰·威利父子公司。

Georganos, S., Grippa, T., Niang Gadiaga, A., Linard, C., Lennert, M., Vanhuysse, S., Mboga, N., Wolff, E., Kalogirou, S., 2021. 地理随机森林:一种随机森林算法的空间扩展,用于解决遥感和人口建模中的空间异质性。Geocarto Int. 36 (2), 121-136. https://doi.org/ 10.1080 / 10106049.2019 .1595177 10.1080 / 10106049.2019 .1595177 10.1080//10106049.2019.159517710.1080 / 10106049.2019 .1595177 .

龚, P., 李, X., 王, J., 白, Y., 陈, B., 胡, T., 刘, X., 许, B., 杨, J., 张, W., 周, Y., 2020. 1985 年至 2018 年全球人工不透水区(GAIA)年度地图。遥感环境. 236, 111510. https://doi.org/10.1016/j. rse.2019.111510.
Hirabayashi, Y., Mahendran, R., Koirala, S., Konoshima, L., Yamazaki, D., Watanabe, S., Kim, H., Kanae, S., 2013. Global flood risk under climate change. Nat. Clim. Chang. 3 (9), 816-821. https://doi.org/10.1038/nclimate1911.

胡华,1990 年。中国人口的分布、区域化及前景。《地理学报》45,139-145。https://doi.org/10.11821/xb199002002

贾,P.,高恩,A.E.,2016。等密度建模:一种结合土地覆盖和税务地块数据的混合方法,用于绘制佛罗里达州阿拉丘亚县的人口分布。应用地理学 66 , 100 108 66 , 100 108 66,100-10866,100-108https://doi.org/10.1016/j.apgeog.2015.11.006

Kosinski, M., Stillwell, D., Graepel, T., 2013. 私人特征和属性可以从人类行为的数字记录中预测。美国国家科学院院刊 110 (15), 5802-5805. https://doi.org/10.1073/pnas. 1218772110.

Leasure, D.R., Jochem, W.C., Weber, E.M., Seaman, V., Tatem, A.J., 2020. 从稀疏调查数据进行国家人口映射:一个层次贝叶斯建模框架以考虑不确定性。美国国家科学院院刊 117 (39), 24173-24179. https://doi.org/10.1073/pnas.1913050117.

李,L.,2019。地理加权机器学习和降尺度用于高分辨率时空风速估计。《遥感》11 (11),1378。https://doi.org/10.3390/rs11111378

李, X., 周, W., 2018. 基于辐射校正的 DMSP-OLS 夜间灯光和土地覆盖数据的中国城市人口的等密度制图。科学总环境. 643, 1248-1256. https://doi.org/10.1016/j.scitotenv.2018.06.244.

刘, Z., 杜, Y., 易, J., 梁, F., 马, T., 裴, T., 2020. 针对台风哈托的集体地理标记人类活动的定量估计,使用位置感知大数据。国际数字地球杂志 13 (9), 1072-1092. https://doi.org/10.1080/ 17538947.2019 .1645894

刘, Z., 马, T., 杜, Y., 裴, T., 易, J., 彭, H., 2018. 利用从手机记录重建的轨迹绘制城市人口的小时动态. Trans. GIS 22 (2), 494-513. https://doi.org/10.1111/tgis. 12323.

Lwin, K.K., Sugiura, K., Zettsu, K., 2016. 城市地区基于网格的人口估计的时空多重回归模型。国际地理信息科学杂志 30 (8), 1579-1593. https://doi.org/10.1080/13658816.2016.1143099.

马, T., 裴, T., 宋, C.i., 刘, Y., 杜, Y., 廖, X., 2019. 从位置感知服务的汇总数据理解城市的昼夜节律的地理模式. 地理信息科学学报. 23 (1), 104-117. https://doi.org/10.1111/tgis.12508.

Patel, N.N., Stevens, F.R., Huang, Z., Gaughan, A.E., Elyazar, I., Tatem, A.J., 2017 通过使用地理推文密度改善大面积人口映射。Trans. GIS 21 (2), 317-331. https://doi.org/10.1111/tgis.12214.


Pokhriyal, N., Jacques, D.C., 2017. 结合不同的数据源以改善贫困预测和制图。美国国家科学院院刊 114 (46), E9783-E9792. https://doi.org/10.1073/pnas.1700319114.

齐, W., 刘, S., 赵, M., 2015. 关于胡线及其两侧人口增长不同空间模式的稳定性研究. 地理学报, 70, 551-566. https://doi.org/10.11821/dlxb201504004.

萨尔瓦托雷, M., 波齐, F., 阿塔曼, E., 哈德尔斯顿, B., 布洛伊斯, M., 2005. 全球城市和农村人口分布的映射, 环境与自然资源系列。

史蒂文斯, F.R., 高恩, A.E., 林纳德, C., 塔特姆, A.J., 阿马拉尔, L.A.N., 2015 年 使用随机森林和遥感及辅助数据对人口普查数据进行拆分以进行人口映射. PLoS ONE 10 (2), e0107042. https://doi.org/ 10.1371 / 10.1371 / 10.1371//10.1371 / journal.pone. 0107042.

Tatem, A., Linard, C., 2011. 贫困国家的人口地图. 自然 474 (7349). https://doi.org/10.1038/474036d.

Tatem, A.J., 2017. WorldPop,空间人口学的开放数据。Sci. Data 4, 2-5. https://doi.org/10.1038/sdata.2017.4

Tatem, A.J., Adamo, S., Bharti, N., Burgert, C.R., Castro, M., Dorelien, A., Fink, G., Linard, C., John, M., Montana, L., Montgomery, M.R., Nelson, A., Noor, A.M., Pindolia, D., Yetman, G., Balk, D., 2012. 映射风险人群:改善传染病建模和指标推导的空间人口数据。人口健康计量学 10, 1-14. https://doi.org/10.1186/1478-7954-10-8

托布勒, W., 迪赫曼, U., 戈特塞根, J., 马洛伊, K., 1997. 世界人口在球面四边形网格中的分布. 国际人口地理学杂志, 3 (3), 203-225.

文特尔,O.,桑德森,E.W.,马格拉赫,A.,艾伦,J.R.,贝赫,J.,琼斯,K.R.,波辛汉,H.P.,劳伦斯,W.F.,伍德,P.,费凯特,B.M.,莱维,M.A.,沃森,J.E. M.,2016 年。全球陆地人类足迹的十六年变化及其对生物多样性保护的影响。《自然通讯》7,1-11。https://doi.org/ 10.1038 / 10.1038 / 10.1038//10.1038 / ncomms12558。

Wardrop, N.A., Jochem, W.C., Bird, T.J., Chamberlain, H.R., Clarke, D., Kerr, D., Bengtsson, L., Juran, S., Seaman, V., Tatem, A.J., 2018. 在没有国家人口和住房普查数据的情况下,空间分解的人口估计。美国国家科学院院刊 115 (14), 3529-3537. https://doi.org/10.1073/ pnas. 1715305115.

杨, X., 叶, T., 赵, N., 陈, Q., 岳, W., 齐, J., 曾, B., 贾, P., 2019. 利用多传感器遥感影像和兴趣点数据进行人口映射. 遥感. 11 (5), 574. https://doi.org/10.3390/rs11050574.

姚, Y., 刘, X., 李, X., 张, J., 梁, Z., 麦, K., 张, Y., 2017. 通过整合多源地理空间大数据绘制建筑级别的细尺度人口分布. 国际地理信息科学杂志 31, 1220-1244. https://doi.org/10.1080/ 13658816.2017 .1290252

易, J., 杜, Y., 梁, F., 裴, T., 马, T., 周, C., 2019. 居民在暴雨响应中的集体地理标记行为异常:基于智能手机位置数据的中国八个城市案例研究。自然灾害与地球系统科学 19, 2169-2182. https://doi.org/10.5194/nhess-19-2169-2019

易, J., 杜, Y., 梁, F., 涂, W., 齐, W., 格, Y., 2020. 从多源地理空间大数据映射人类在青藏高原的数字足迹。科学·总环境. 711, 134540. https://doi.org/10.1016/j.scitotenv.2019.134540.

    •  通讯作者。

    电子邮件地址:duyy@lreis.ac.cn (Y. Du),yijw@lreis.ac.cn (J. Yi)。