这是用户在 2024-4-27 11:15 为 https://app.immersivetranslate.com/pdf-pro/19fc0f42-070f-401c-9140-4e7efc9ac6ad 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
2024_04_27_9364f8eb1b0ca10a3b62g

然而,由于最高收入阶层是开放式的,粗略估计的构建相当随意,其不确定性的量化可能是不可能的。

大多数市镇的第三收入阶层(200 万至 300 万日元)和第四收入阶层(300 万至 400 万日元)居民所占比例最大。远离市区的市町村,如日本西南部和北部的市町村,第一收入阶层(100 万日元以下)和第二收入阶层(100 万至 200 万日元)的居民所占比例较大。其他几轮 HLS 的图表见补充材料。

家庭收入调查每五年进行一次,至少一年后才会公布结果。为了在时间和空间上灵活、快速地制定细粒度的政策,最好能定期(如每年)提供和更新所有城市的收入状况信息。

总之,尽管 HLS 收集了日本全国家庭收入的一些详细数据,但分析人员仍将面临以下挑战:

  1. 这些数据将以分组数据的形式出现,无法轻易从中获得收入和贫困衡量标准;

  2. 数据将包括许多未被抽样调查的城市;

  3. 尽管人们希望了解最新的收入状况,例如每年一次,但调查将每五年进行一次。

下一节提出的时空混合模型可以克服这些挑战。


700 万至 1000 万日元

1,000 万至 1,500 万日元


图 1:2018 年 HLS 数据中九个收入等级的比例。


3 时空混合物建模

 3.1 模式


假设我们感兴趣的是 地区在 期间的收入分布情况,用 表示,密度函数为 。我们还假设无法观测到单个家庭的收入,只能获得分组数据。具体而言,设 第三期的 收入等级,其中 通常分别设为 0 和 。因此,每个区间的住户数都是观测值,用 表示。与 HLS 数据一样(见第 5 节),我们假定所有的


的区域不采样。在不失一般性的前提下,对第一个 地区进行抽样,其余 地区不进行抽样, 。此外,分组数据中第 个地区和第 个时期的住户数用 表示。

为了灵活地模拟基本的时空收入分布,我们考虑使用对数正态分布的混合物,如下所示:

其中, 是与收入数据相关的某些外部信息(如消费水平或税收水平)的 维向量, 分别是 th 分量的系数和标度参数, 表示带有 参数的对数正态分布的密度函数。

(1) 中成分分布的协变量 至关重要。关于非采样城市的空间插值, ,必须对所有城市进行观测。此外,在时间预测方面,还假定 的最新观测数据比 HLS 更频繁获得,例如每年一次。我们的 HLS 数据分析基于每个纳税人的应税收入(见第 5.1 节)。

众所周知,仅采用对数正态分布对收入数据的拟合效果很差。然而,对数正态分布的混合分布却能很好地拟合数据(Lubrano 和 Ndoye,2016 年)。此外,(1) 只是针对未观察到的连续家庭收入的假设。对于分组收入数据, th 地区在 th 期间的似然贡献采用多叉形式:

,其中 期面积的分布函数,其分布函数为对数正态分布,

混合比例 模拟为

其中, 表示总体混合比例, 表示特定区域的空间效应, 表示时间效应。我们将所有 地区的行标准化邻接矩阵表示为 。利用 ,我们独立假设 的同步自回归(SAR)模型为 。即


取样参数 和相关参数 。取样区域空间效应的边际分布 。我们假设时间效应, ,遵循随机漫步过程, ,为 ,其中 为初始位置参数。

 3.2 以前的分配


在这里,我们指定了参数的先验分布。由于这些先验分布在数据增强后是有条件共轭的,因此便于吉布斯抽样算法的开发。关于分量分布的参数, ,我们假设 。由于这些分量分布在空间和时间上是共通的,可以稳定估计,因此默认的超参数选择为 ,这样它们就是弥散的。关于 ,假定正态先验为 ,默认值为 。通过使用行标准化邻接矩阵,空间相关参数的先验值由 给出。对于合成孔径雷达模型的精度参数 ,我们假定 为默认值 ,这样就大大涵盖了可能的值。关于随机漫步过程的初始位置和方差,我们假设 。默认超参数选择为 , , 和

 3.3 后验推理


后验推断基于马尔科夫链蒙特卡罗(MCMC)方法。我们开发的吉布斯采样算法无需调整,因为它不需要任何 Metropolis-Hastings (MH) 步骤。具体细节见补充材料,我们在此简要介绍一下构建吉布斯采样器的策略。首先,为了便于对 中的变量进行采样,我们采用了 Polson 等人(2013 年)的 Pólya-gamma 数据扩增法,以便从正态分布中对这些变量进行采样。其次,我们引入了一个潜变量,它表示 第三收入阶层中属于 第三混合物成分的家庭数量。第三,引入潜在的个体家庭收入,以方便对 进行采样。根据 第 1 个收入类别和 第 1 个混合物成分中的数据和家庭数量,从截断正态分布中生成单个家庭收入的对数。最后,从 的全条件分布中取样,根据条件共轭,它们分别是正态分布和逆伽马分布。

根据 MCMC 的输出结果,可以得到相关数量的后验推断。在这种情况下,我们对 的平均收入、 、收入中位数和基尼指数感兴趣。在混合模型下,收入中位数和基尼指数无法通过分析获得。关于收入中位数, ,对 进行数值求解。对于基尼指数(由 定义),按照 Lubrano 和 Ndoye(2016 年)的方法对积分进行数值计算。

考虑到参数和潜变量的 MCMC 抽样, 从 SAR 模型的条件分布中抽样: 。关于时间预测, 取自

在实践中,成分的数量 是未知的。然而,它却会影响估算性能或对估算结果的解释。根据 Celeux(1999 年)、Fürwirth-Schnatter 和 Pyne(2010 年)以及 Malsiner-Walli 等人(2016 年)的研究, -均值聚类应用于 的 MCMC 输出。假设我们有 MCMC 抽样 ,表示为


,为 。然后, , s 作为 -means聚类的输入,为 的每个 分配标签 。计算 -means聚类的聚类标签与 的排列相匹配的 MCMC 抽样分数。在实践中,匹配分数的计算公式为 ,其中 表示指标函数。例如,当 聚类分隔良好,且 等同于 的集合时, 。如果给定 的 MCMC 抽样的匹配分数小于 1,则表明混合物过度拟合;因此,首选较小的

 4 模拟研究


首先使用模拟数据演示了所提出的方法。二维空间上的 区域单位是通过从 中抽取每个坐标生成的。一个区域的邻域定义为坐标距离在 0.2 欧几里得范围内的区域,平均邻域数为 5.77。在每个区域, 生成,共 21 期。各组分别由 代表所有 。这些分组与后三轮 HLS 中的分组相对应(表 1)。在本次模拟研究中,分组数据由混合模型(1)生成, 。分量分布的参数设置如下: , 。每个协变量( )均由均匀分布生成。

使用相同的成分分布,我们考虑了以下两种混合比例设置。在第一种情况下,混合比例由 生成, 。在第二种设置中,空间和时间效应由以下确定性序列决定: , 。此外,二维空间 被划分为 个方形块。同一区块内的区域对混合比例的影响相同: 。在


在这种情况下,区域 是第 个区块的子区域。因此, 区域对应的 区块的混合比例与 对应的 成比例。每个区块的子区域平均为 8 个。

首先,我们对第 3 节所述的时空混合物模型进行拟合,拟合时使用不同的成分数: 。建议的吉布斯采样器运行 20,000 次迭代,初始消耗期为 10,000 次迭代。图 2 显示了两种设置下建议的混合物模型的匹配分数。在两种设置下,只要 ,匹配分数都是 1。然而,图中显示,在 , 和 6 , 的过度指定模型中,匹配分数变得小于 1,表明混合模型的过度拟合。从图中可以看出,从 的较小值开始监测匹配分数,并在扭结处选择适当的 是合理的方法。


图 2:MCMC 抽样中 -均值聚类的输出与 的排列相匹配的百分比。

接下来,我们将拟议的时空混合模型与四个替代模型进行比较。第一个替代模型是基于(1)和(3)的混合模型。混合比例用代表空间和时间异质性的双向独立随机效应建模: 分别表示空间和时间的异质性。由于该模型具有空间和时间效应,因此可用于空间插值和时间预测。第二个替代模型是对数正态分布的混合模型,其混合比例仅包括 。这是一个纯粹的空间模型,对每个 进行独立拟合,并用于空间插值。


只是。该模型可视为 Kawakubo 和 Kobayashi(2023 年)提出的分组数据小区域模型的空间混合扩展。第三种选择是分组数据的简单对数正态模型。该模型使用最大似然法对每个地区和时期进行独立估计。第四种选择是 SAE 模型。更具体地说,我们考虑了 Torabi 和 Rao(2014 年)提出的线性混合模型,这也是其中一位审稿人的建议。该模型如下

其中, 是该地区的分地区数, ,这样, 是下文所述的粗平均收入, 是地区效应, 是分地区效应, 是抽样误差。平均收入是根据