这是用户在 2024-11-27 15:27 为 https://app.immersivetranslate.com/pdf-pro/ce207ccd-8cdd-4145-bd13-aec659c2dc04 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?


利用未标记数据在多实例学习问题中,以改善在自由生活条件下对帕金森病震颤的检测


亚历山德罗斯·帕帕多普洛斯,阿纳斯塔西奥斯·德洛波洛斯,IEEE 会员

 摘要


数据驱动方法在近年来用于远程检测帕金森病及其运动症状的应用日益增多,这得益于早期诊断的潜在临床益处。这类方法的神圣目标是实现自由生活场景,即在日常生活中持续且不引人注目地收集数据。然而,获取细粒度的事实真相和保持不引人注目是一种矛盾,因此,通常通过多实例学习来解决这个问题。然而,对于大规模研究,即使获取必要的粗粒度事实真相也不是一件简单的事情,因为需要完整的神经学评估。相比之下,在没有事实真相的情况下进行大规模数据收集则容易得多。尽管如此,在多实例设置中使用未标记数据并不简单,因为该领域的研究关注非常有限。在这里,我们通过引入一种将半监督与多实例学习相结合的新方法来填补这一空白。 我们的方法基于虚拟对抗训练原理,这是一种用于常规半监督学习的最先进方法,我们对其进行了适当的适应和修改,以适用于多实例设置。我们首先通过在两个知名基准数据集生成的合成问题上的概念验证实验,确立了所提出方法的有效性。然后,我们转向实际任务,即从野外收集的手部加速度信号中检测 PD 震颤,但在此过程中存在额外的完全未标记数据。我们表明,通过利用 454 个受试者的未标记数据,我们可以在已知震颤真实标签的 45 个受试者群体中实现显著的性能提升(F1 分数提高至 9 % 9 % 9%9 \% )。在这样做的同时,我们证实了我们的方法在现实世界问题中的有效性,其中半监督学习和多实例学习的需求自然产生。


索引词-深度学习,半监督学习,多实例学习,帕金森病,疾病监测

 I. 引言


阿尔金森病(PD)是一种与运动和非运动症状相关的长期神经系统疾病,如肢体震颤、运动迟缓、僵硬、精细运动技能退化、抑郁倾向、言语障碍和睡眠异常[1]。尽管目前尚无治愈方法,

提交日期:2023 年 5 月 2 日


这项工作得到了欧盟“地平线 2020”研究与创新计划的资助,资助协议编号为 965231。

亚历山德罗斯·帕帕多普洛斯(alpapado@mug.ee.auth.gr)和阿纳斯塔西奥斯·德洛波洛斯(antelopo@ece.auth.gr)在塞萨洛尼基的亚里士多德大学电子与计算机工程系工作。


目前,首次诊断时的疾病阶段对疾病进展和患者的生活质量有重大影响,早期诊断与这两个结果显著改善相关[2]。这种联系,加上早期 PD 的迹象往往被患者忽视或忽略,推动了利用机器学习(ML)对传感器数据进行持续和客观监测个体以发现可能表明 PD 的图案或行为变化的研究[3]。

为此,提出了各种传感器类型和算法,针对疾病的多种症状。例如,敲击虚拟或物理键盘被用于量化精细运动障碍[4]-[6],麦克风用于估计语音退化程度[7]-[9],可穿戴加速度计和陀螺仪用于检测震颤[10]-[12]、步态失衡[13]-[15]以及由运动徐缓引起的进食困难[16]。基于将特定类型传感器的数据与特定运动症状关联的基本思想,一些研究甚至采取更全面的方法,结合多个传感器来检测 PD 本身,而不仅仅是单一症状[17]-[20]。

大多数文献中的方法,在受控的实验室环境或至多是在脚本化的家庭环境中收集数据。尽管自由生活设置最适合大规模采用任何提出的技术,但很少有工作实际上在这种设置下进行。向无干扰和野外设置的缓慢转变并非没有原因,因为后者对机器学习方法提出了重大困难,从低信噪比到获取精确的地面真实数据用于训练和评估的困难。这些困难通常通过使用粗略的、主题级别的注释来规避,这允许使用多实例学习[12],[21]-[23]进行预测。然而,当从数百人收集数据时,即使是粗略的注释也可能具有挑战性,每个人都必须接受神经学评估。相反,正如我们将看到的,从数百名受试者收集未标记的数据要容易得多,也便宜得多。


在这篇论文中,我们研究了通过分析在日常用户智能手机交互过程中无痕捕捉到的手部加速度信号,预测一个人是否患有 PD 诱导的震颤的问题。为此,采用了一个“监听”电话 IMU 传感器的数据收集应用程序(在[24]的背景下开发),用于远程筛查 PD 震颤。


在[21]中,首次在隐蔽和自由生活的条件下处理了这个问题,使用了相对较小的数据集,其中 45 名受试者都标注了震颤。在这里,我们检验通过纳入一个额外的包含 454 名受试者的较大数据集,这些受试者在相同条件下收集但缺乏震颤标注,是否可以提高震颤检测性能。这是一个自然的下一步,因为获取额外的未标记数据非常容易:我们只需要将数据收集应用分发给尽可能多的人。相反,获取标记数据需要受试者进行神经学评估,这个过程既耗时又昂贵,因此无法扩展到大量参与者。

构建使用少量标记数据和大量未标记数据的 ML 模型对应于一种称为半监督学习的学习方法。多年来,半监督学习(SSL)因获取大量数据的便捷性和标记数据的固有难度而受到研究界的广泛关注。近年来,深度学习的半监督方法取得了令人瞩目的成果。在自我监督学习[25]和一致性正则化[26]等之前,这些方法已成功应用于许多图像分类问题,实现了与全监督方法相当的性能,同时仅使用少量标签[27]-[29]。
Currently, most SSL approaches work in the single-instance learning setting, where the goal is to predict the label y y yy of a data sample x. However, a different setting with particular interest for remote disease screening is that of MultipleInstance Learning (MIL), where the goal is to predict a label y y yy for a bag of samples (or instances) { x 1 , x 2 , } x 1 , x 2 , {x_(1),x_(2),dots}\left\{\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots\right\}. Throughout the learning procedure, the labels of the instances in the bag are unknown and the only available annotation is a label that describes the entire bag. This situation is regularly encountered in practice. In our case, for example, PD tremor may manifest only for a fraction of time during everyday life, depending on the disease’s stage, the symptom’s intermittence or levodopa intake. Hence, to detect tremor from sensor measurements obtained in-the-wild, we must resort to MIL, as there is no easy way to obtain detailed ground-truth of the on-off periods. 

我们关注半监督与多实例学习的结合。特别是,我们感兴趣的是是否可以使用未标记的包来改进多实例分类器。有趣的是,这个问题得到了非常少的研究关注。[30]的早期工作在基于内容的图像检索设置中使用未标记的包,并提出了一种将 MI 问题转化为具有 MI 约束的基于单实例图标签传播[31]问题的方法。[32]的后续工作采用了一种类似的基于图的方法,并建议在实例级和包级图像表示之间实现统一,以进行图像的归纳标注。[33]提出了对图优化目标的进一步修改。一个有趣的方法是[34]提出的基于正则化的 MI SSL 方法,用于视频标注任务,其中鼓励相似实例共享相似标签,而[35]提出了一种结合标签传播与 MI 的实例级标签传播方案。最后,[36]进行了探索。


一种使用袋子之间的相似性信息而不是完整标签来训练 MIL 分类器的场景。

基于上述概述,人们注意到几乎所有这些工作都关注于归纳半监督学习(SSL)[37],其目标是给定的未标记数据分配标签(即传播标签到实例包中),而不是从数据到标签域学习一个一般映射。此外,大多数相关方法都早于深度学习,并且专注于更传统的机器学习模型。在本文中,我们遵循不同的方向,并提出了一种基于一致性正则化的方法,能够利用未标记的包来改进深度多实例学习分类器。具体来说,我们做出了以下贡献:


(i) 我们提出了一种在多实例问题中利用未标记实例袋的方法,通过将最先进的半监督算法应用于多实例设置。此外,我们还对主算法进行了两项额外的改进,以进一步提高性能。


(ii) 为证明其在受控环境中的有效性,我们在基于 MNIST 和 CIFAR-10 数据集合成的数据集上进行了彻底的实验,其中我们展示了通过引入未标记数据在性能上的系统性提升,与完全监督的基线以及两种替代的当前最先进的 SSL 算法相比。


(iii) 我们引入了一个新的手部加速度记录数据集,该数据集在不干扰 PD 患者和健康对照者的自然生活状态下采集。它包括 45 个标记样本(带有震颤真实情况)和 454 个未标记样本(无震颤真实情况)。它作为先前数据集的扩展,在此处公开发布。


(iv)通过利用这个未标记队列,我们证明了我们提出的方法可以显著提高 PD 震颤检测性能(F1 分数提高至 9 % 9 % ∼9%\sim 9 \% ),与仅使用小规模标记队列的替代方案相比,从而证明了其在远程疾病筛查中的实用性。


本文其余部分组织如下。在第①节中,我们介绍了 SSL 和 MIL 领域的相关文献,主要关注与我们相关的方法。在第Ⅲ节中,我们介绍了我们的 MI SSL 方法及其提出的变体。第Ⅳ节展示了初步的、概念验证的实验结果。然后第Ⅴ节介绍了野外地震检测问题,并展示了我们的方法如何应用于提高该问题的性能。最后,在第Ⅵ节中,我们讨论了所提出方法的可能益处和注意事项。

 II. 前言


A. 半监督学习


半监督学习(SSL)是一种情况,除了一个完全标记的集合 D l = { ( x i , y i ) } i = 1 L D l = x i , y i i = 1 L D_(l)={(x_(i),y_(i))}_(i=1)^(L)\mathcal{D}_{l}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}_{i=1}^{L} 外,我们还得到了一个从相同边缘分布独立同分布抽取的未标记数据点集合 D u = { x i } i = L + 1 L + U D u = x i i = L + 1 L + U D_(u)={x_(i)}_(i=L+1)^(L+U)\mathcal{D}_{u}=\left\{\mathbf{x}_{i}\right\}_{i=L+1}^{L+U} 。目标是利用 D u D u D_(u)\mathcal{D}_{u} 来学习一个比

what would be possible using only D l D l D_(l)\mathcal{D}_{l}. In general, it is not evident how unlabelled data can help, as knowledge of the marginal does not directly contribute to the data likelihood for a given model. In fact, D u D u D_(u)\mathcal{D}_{u} can be helpful only if certain assumptions are true. The most common one is the smoothness assumption, which states that if two points x 1 , x 2 x 1 , x 2 x_(1),x_(2)\mathbf{x}_{1}, \mathbf{x}_{2} in a highdensity region are close, then so should be their predicted labels y 1 , y 2 y 1 , y 2 y_(1),y_(2)y_{1}, y_{2}. This suggests that the learnt classifier must be smooth in high-density regions. The well-known low-density separation assumption that requires the decision boundary to lie in a low-density region, is an alternative view of the smoothness assumption. 
Early SSL techniques for neural networks were designed to enforce the low-density separation assumption on the resulting classifier. They did so by penalizing a decision boundary in high-density regions, for example by encouraging the model output distribution to have low entropy [38]. More recent techniques employ a similar regularization scheme, in which the model is encouraged to be invariant across label-preserving transformations of the input data (e.g. a small amount of additive gaussian noise that does not change the label). This principle is called consistency regularization and is used in many state-of-the-art methods for semi-supervised image classification, like Pseudo-Ensembles [39], Temporal Ensembling [40] and Mean Teacher [41]. 

一种在本文中特别感兴趣的一致性正则化的方法是虚拟对抗训练(VAT)方法[42]。VAT 不是随机扰动 x,而是计算导致模型输出最大变化的扰动。为了实现这一点,在每一步训练中,它解决以下优化问题:
r v a d v = arg max r ; r 2 = ϵ D [ p ( y x ; θ ^ ) , p ( y x + r ; θ ^ ) ] r v a d v = arg max r ; r 2 = ϵ D [ p ( y x ; θ ^ ) , p ( y x + r ; θ ^ ) ] r_(vadv)=arg max_(r;||r||_(2)=epsilon)D[p(y∣x; hat(theta)),p(y∣x+r; hat(theta))]\mathbf{r}_{v a d v}=\underset{\mathbf{r} ;\|\mathbf{r}\|_{2}=\epsilon}{\arg \max } D[p(y \mid \mathbf{x} ; \hat{\theta}), p(y \mid \mathbf{x}+\mathbf{r} ; \hat{\theta})]
where p ( y x ; θ ^ ) p ( y x ; θ ^ ) p(y∣x; hat(theta))p(y \mid \mathbf{x} ; \hat{\theta}) is our model, D D DD is a distribution divergence metric and θ ^ θ ^ hat(theta)\hat{\theta} denotes the model parameters at the current step. The optimization problem of Eq. 1 can be approximated efficiently with just an additional forward-backward pass through the network. Having estimated r v a d v r v a d v r_(vadv)\mathbf{r}_{v a d v}, the model is then encouraged to be smooth along its direction by minimizing the Local Distributional Smoothing (LDS) loss at each data point: 
L D S = D [ p ( y x ; θ ^ ) , p ( y x + r v a d v ; θ ^ ) ] L D S = D p ( y x ; θ ^ ) , p y x + r v a d v ; θ ^ LDS=D[p(y∣x;( hat(theta))),p(y∣x+r_(vadv);( hat(theta)))]L D S=D\left[p(y \mid \mathbf{x} ; \hat{\theta}), p\left(y \mid \mathbf{x}+\mathbf{r}_{v a d v} ; \hat{\theta}\right)\right]

实证结果表明,鼓励沿着虚拟对抗方向的一致性, r v a d v r v a d v r_(vadv)\mathbf{r}_{v a d v} ,与随机扰动的一致性相比,显著提高了性能。在以下内容中,我们将提出一种基于 VAT 的半监督多实例学习方法。我们选择这种特定的技术,因为其最终目标在概念上直观且优雅,其理论基础坚实。


B. 多实例学习


在多实例学习(MIL)中,我们再次面对一组样本及其标签 D = { ( X i , y i ) } i = 1 L D = X i , y i i = 1 L D={(X_(i),y_(i))}_(i=1)^(L)D=\left\{\left(X_{i}, y_{i}\right)\right\}_{i=1}^{L} 。不同的是,这里的每个样本本身就是一个实例包。

i.e. X i = { x i 1 , x i 2 , , x i K } X i = x i 1 , x i 2 , , x i K X_(i)={x_(i)^(1),x_(i)^(2),dots,x_(i)^(K)}X_{i}=\left\{\mathbf{x}_{i}^{1}, \mathbf{x}_{i}^{2}, \ldots, \mathbf{x}_{i}^{K}\right\} with x i j R N x i j R N x_(i)^(j)inR^(N)\mathbf{x}_{i}^{j} \in \mathbb{R}^{N}, while y i y i y_(i)y_{i} refers to the entire bag X i X i X_(i)X_{i} and not to any one instance x i j x i j x_(i)^(j)\mathbf{x}_{i}^{j}. The goal in this scenario is to learn a bag classifier. Since a bag is an unordered set of instances without dependencies between its members, our classifier should be permutation-invariant with respect to the ordering of the bag instances. Theoretical results [43] suggest that a bag function f ( X ) f ( X ) f(X)f(X) is permutation-invariant if and only if it can be decomposed in the form: 
f ( X ) = ρ ( z ) , z = x X ϕ ( x ) f ( X ) = ρ ( z ) , z = x X ϕ ( x ) f(X)=rho(z),quadz=sum_(xin X)phi(x)f(X)=\rho(\mathbf{z}), \quad \mathbf{z}=\sum_{\mathbf{x} \in X} \phi(\mathbf{x})
where ϕ ϕ phi\phi is an embedding function R N R M , z R M R N R M , z R M R^(N)|->R^(M),zinR^(M)\mathbb{R}^{N} \mapsto \mathbb{R}^{M}, \mathbf{z} \in \mathbb{R}^{M} is the embedding of X X XX and ρ ρ rho\rho a suitable transformation R M Y R M Y R^(M)|->Y\mathbb{R}^{M} \mapsto \mathcal{Y} (with Y Y Y\mathcal{Y} we denote the label domain). 
For models based on neural networks, the transformation ϕ ϕ phi\phi is usually a high-capacity CNN that is used either for feature extraction or for direct instance classification. The transformation ρ ρ rho\rho is then either a classification head that takes us from the embedding space to the class space, or simply the identity. A rather interesting modification to the above stems from incorporating an attention mechanism on the sum of Equation 3. This approach [44] defines the bag embedding as a non-linear combination (with learnable parameters V , w V , w V,w\mathbf{V}, \mathbf{w} ) of the instance features: 
z = k = 1 K α k ϕ ( x k ) , α k = e w T tanh ( V ϕ ( x k ) T ) i = 1 K e w T tanh ( V ϕ ( x i ) T ) z = k = 1 K α k ϕ x k , α k = e w T tanh V ϕ x k T i = 1 K e w T tanh V ϕ x i T z=sum_(k=1)^(K)alpha_(k)phi(x_(k)),quadalpha_(k)=(e^(w^(T))tanh(Vphi(x_(k))^(T)))/(sum_(i=1)^(K)e^(w^(T)tanh(Vphi(x_(i))^(T))))\mathbf{z}=\sum_{k=1}^{K} \alpha_{k} \phi\left(\mathbf{x}_{k}\right), \quad \alpha_{k}=\frac{e^{\mathbf{w}^{T}} \tanh \left(\mathbf{V} \phi\left(\mathbf{x}_{k}\right)^{T}\right)}{\sum_{i=1}^{K} e^{\mathbf{w}^{T} \tanh \left(\mathbf{V} \phi\left(\mathbf{x}_{i}\right)^{T}\right)}}
The attention parameters V V V\mathbf{V} and w w w\mathbf{w} can be easily modelled as neural networks, thus allowing the whole model to be learnable end-to-end. In addition, attention scores provide an elegant way of identifying key instances within a bag. Attention-based MIL has been successfully applied to many problems [22], [45], [46]. Owing to its attractive properties and performance, we will use it as our core MIL model, which we will enhance in the next section with a semi-supervised component. 


III. 半监督多实例学习

In this section, we present our approach for utilizing unlabelled bags of instances in order to improve a multipleinstance classifier. As VAT provides a principled and elegant way of using unlabelled data, we elect to use it for semisupervised MIL, over other SSL approaches (e.g. Mean Teachers) that could be directly applied to the same problem. 
First, we extend VAT to the multiple-instance scenario. To that end, we introduce the concept of bag perturbation which is a set R = ( r 1 , r 2 , , r K ) R = r 1 , r 2 , , r K R=(r_(1),r_(2),dots,r_(K))R=\left(\mathbf{r}_{1}, \mathbf{r}_{2}, \ldots, \mathbf{r}_{K}\right) that when added elementwise to a given bag X X XX, slightly perturbs it. The Multiple-Instance Local Distributional Smoothing (MI-LDS) loss can now be defined as: 
M I L D S ( X , θ ^ ) = D [ p ( y X ; θ ^ ) , p ( y X + R vadv ; θ ^ ) ] M I L D S ( X , θ ^ ) = D p ( y X ; θ ^ ) , p y X + R vadv ; θ ^ MI-LDS(X, hat(theta))=D[p(y∣X;( hat(theta))),p(y∣X+R_(vadv);( hat(theta)))]M I-L D S(X, \hat{\theta})=D\left[p(y \mid X ; \hat{\theta}), p\left(y \mid X+R_{\mathrm{vadv}} ; \hat{\theta}\right)\right]
 哪里
X = ( x 1 , x 2 , x K ) R vadv = ( r 1 , r 2 , , r K ) = arg max R ; r k 2 <= ϵ D [ p ( y X ; θ ^ ) , p ( y X + R ; θ ^ ) ] X + R vadv = ( x 1 + r 1 , x 2 + r 2 , , x K + r K ) X = x 1 , x 2 , x K R vadv = r 1 , r 2 , , r K = arg max R ; r k 2 <= ϵ D [ p ( y X ; θ ^ ) , p ( y X + R ; θ ^ ) ] X + R vadv = x 1 + r 1 , x 2 + r 2 , , x K + r K {:[X=(x_(1),x_(2),dotsx_(K))],[{:[R_(vadv)=(r_(1),r_(2),dots,r_(K))],[quad=arg max_(R;||r_(k)||_(2)<=epsilon)D[p(y∣X; hat(theta))","p(y∣X+R; hat(theta))]],[X+R_(vadv)=(x_(1)+r_(1),x_(2)+r_(2),dots,x_(K)+r_(K))]:}]:}\begin{aligned} & X=\left(\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots \mathbf{x}_{K}\right) \\ & \begin{aligned} & R_{\mathrm{vadv}}=\left(\mathbf{r}_{1}, \mathbf{r}_{2}, \ldots, \mathbf{r}_{K}\right) \\ & \quad=\underset{R ;\left\|r_{k}\right\|_{2}<=\epsilon}{\arg \max } D[p(y \mid X ; \hat{\theta}), p(y \mid X+R ; \hat{\theta})] \\ & X+ R_{\mathrm{vadv}}=\left(\mathbf{x}_{1}+\mathbf{r}_{1}, \mathbf{x}_{2}+\mathbf{r}_{2}, \ldots, \mathbf{x}_{K}+\mathbf{r}_{K}\right) \end{aligned} \end{aligned}