PDDS：利用检测和分割算法从核磁共振成像和 DaT 扫描图像早期诊断帕金森病的软件

Tewodros Megabiaw Tassew $^{a}$ , Nie Xuan $^{b,^{*}}$ , Bosong Chai $^{c}$
$^{a}$ 中国陕西省西安市碑林区友谊西路127号西北工业大学软件工程专业邮编：710072
$^{b}$ 陕西省西安市碑林区友谊西路 127 号西北工业大学邮编：710072

文章

关键词：

  帕金森病
  磁共振成像
  DaT 扫描
  深度学习

摘要

帕金森病是一种常见的神经退行性疾病，影响着全球数百万人。核磁共振成像和 DaTScan 等医学成像技术可以显示与该疾病相关的大脑结构（如黑质和纹状体）的变化，从而帮助诊断帕金森病。在本文中，我们提出了一款名为 PDDS（帕金森病诊断软件）的软件，它能利用先进的深度学习模型从 MRI 和 DaTScan 图像中自动检测和分割大脑深部区域。我们的软件使用 YOLO 和 UNET 集合分别从 T2 加权 MRI 和 DaTScan 图像中精确定位感兴趣区（ROI），并将其用于定量评估和决策支持。该集合方法采用加权平均集合，通过网格搜索技术获得适当的权重，从而获得最高的平均 IOU。我们使用了马赛克数据增强技术，通过将模型暴露于不同环境中的物体来提高模型的泛化能力。我们使用 PPMI 和 IXI 数据集对提出的架构进行了训练和验证，检测结果表明，YOLOv7x 模型在 DaTScan 图像上的 mAP_0.5:0.95 为 $70.39 %$ ，在 MRI 图像上的 mAP_0.5:0.95 为 $64.16 %$ ，优于之前的方法。在分割结果方面，我们采用不同骨干的集合 UNet 模型在 DaTScan 图像和 MRI 图像上分别实现了 $70.02 %$ 和 $54.31 %$ 的平均 IOU。根据我们的研究结果，我们的方法是一种有竞争力的自动检测和分割方法，可应用于临床上具有挑战性的医学影像问题。

1.导言

帕金森病（PD）是一种缓慢进展的神经退行性疾病，最早由詹姆斯-帕金森（James Parkinson）描述，主要影响中老年人。据预测，2015 年全球帕金森病患者人数将达到 620 万[54]。预计到 2017 年，全球将有 850 万人受到该疾病的影响[23]。据报道，在中国，65 岁以上的成年人中有 1.7% 患有该病[58]。该病是老年人神经系统疾病中最常见的病因之一。帕金森病的发病率约占总人口的 0.3%，在 60 岁以上人群中的发病率为

1 %

，每年新增病例 10 万例。[33] 临床上，帕金森病的特征是运动功能障碍、认知障碍、动作迟缓（运动迟缓）、肌肉僵硬、静止性震颤，以及在疾病进展后期出现的姿势不稳[27]。然而，这些症状的严重程度和进展速度可能因人而异。

影响基底神经节的最常见疾病是帕金森病。帕金森氏症是由黑质紧实旁的多巴胺能神经元变性引起的。这些神经元参与将多巴胺传递到纹状体和另一个基底节核。黑质是人脑中一个小而重要的结构。它是位于中脑的一个运动核。它在调节运动方面发挥着重要作用。影响黑质的脑损伤导致的运动障碍包括帕金森病和其他运动障碍。它在精神分裂症的发病机制中也发挥着作用。

近来，帕金森病患者大脑中多巴胺能细胞的死亡与基因突变、异常的ubiq-uitin-蛋白酶体和自噬-溶酶体处理折叠错误的蛋白质、氧化应激增加、线粒体功能障碍、炎症和其他致病机制有关。环境中的毒素，如妨碍线粒体功能的杀虫剂，可能会影响线粒体的功能。

是导致帕金森病多巴胺能神经元退化的一个因素。

2.早期诊断帕金森病的挑战

治疗帕金森病的最大障碍之一是发现太晚[31]。由于缺乏早期诊断技术，这种疾病通常在神经元完全退化后才被发现。因此，没有早期干预措施来阻止疾病的发展，最终导致死亡[30]。帕金森病的症状通常出现在多巴胺缺乏达到

80 %

之后，

60 %

，基底节（尾状核和普鲁门）和黑质旁的多巴胺能神经元已经丧失

[31, 12]

。因此，在疾病的早期阶段采取适当的治疗措施以减少或阻止疾病的发展至关重要。

帕金森退行性疾病的早期临床表现很难诊断[20]。有研究表明，即使在专业中心，帕金森病临床诊断的错误率也可高达

24 %

。以往的研究表明，由于与多系统萎缩（MSA）、药物诱发的帕金森病和本质性震颤（ET）等其他运动障碍重叠，鉴别和评估与特发性帕金森病相关的症状已被证明具有相当大的挑战性[3]。由于各种帕金森病的临床表现明显重叠，运动障碍专家认为误诊率仍然很高（16-20%）[42]。因此，由于延迟诊断和误诊对提供有效治疗的影响，迫切需要找到可靠而精确的帕金森病生物标志物。[30].

3.帕金森病的生物标志物

美国国立卫生研究院生物标志物定义工作组于 1998 年将生物标志物定义为 "某种生物状态或状况的可测量指标，通过客观测量和评估来研究正常生物过程、致病过程或对治疗干预的药理反应"[50]。生物标志物是物理、化学或生物指标，可用于

以评估帕金森病的风险、阶段和进展，从而提供治疗

[47, 38]

。最近，人们对寻找诊断和预后生物标志物的兴趣与日俱增，这些生物标志物可以在帕金森病仍有可能预防的情况下进行早期诊断。可靠而准确的诊断生物标志物可以帮助早期发现帕金森病，从而在运动症状出现之前进行医疗干预。成像、脑脊液、氧化应激、神经保护和炎症都是有助于帕金森病早期诊断的指标。[31].

目前似乎还没有一种特定的血液检测或生物标志物可以可靠地诊断出帕金森氏症或跟踪疾病进展过程中的潜在变化[21]。为了帮助临床医生将帕金森病与相关疾病区分开来，他们需要全面了解帕金森病的临床表现。未来的研究可能会发现该病特有的生物标志物，从而将其与其他神经退行性疾病区分开来。因此，甚至可以在患者出现任何症状之前就开始神经保护治疗。这种检测将有助于确定高危亲属或人群，以及诊断已患病者的病情（见图 1）。

综合使用不同的生物标志物可以提高诊断的准确性。虽然没有推荐使用特定的生物标志物，但可以将这些生物标志物进行逻辑整合，以预测疾病的状态和发展。[30]尽管帕金森病的生物标志物种类繁多，但它们可分为三个阶段，即前驱期、临床前和临床帕金森病。表 1 和图 2 总结了帕金森病不同阶段的指标。

3.1.早期帕金森病的成像生物标志物

越来越多的成像技术有望检测出帕金森病患者的早期变化，并作为疾病进展的单独指标[19]。在诊断帕金森病时，越来越多地利用影像生物标志物来证实临床发现。帕金森病的特征是基底神经节区域（黑质、普陀门、尾状核和苍白球）的黑质多巴胺能神经元显著丧失[2,41]。这主要是由于随着年龄的增长，铁沉积增加所致，在这些区域比身体其他部位更明显[57]。

图 1.基底节冠状视图。

表 1

帕金森病不同阶段的生物标志物[31]。

	前驱期白内障	临床前病理研究	临床 PD
临床状况	开始出现早期非运动症状，同时伴有早期细微运动症状，并出现帕金森病病理变化。	无临床症状或体征。	出现典型的运动表现。
生物标志物	- 非运动症状	- 分子成像	- 运动症状
	- 嗅觉减退（嗅觉障碍）	- DAT SPECT	- 肌无力
	- 视觉异常（眼球运动障碍）。	- 氟罗多巴 PET 扫描	- 肢体运动障碍
	- 神经精神症状	- 经颅超声	- 运动功能减退
	i.抑郁症	- 磁共振	- 姿势不稳
	ii.焦虑	成像	- 刚性
	iii.失神	- 光学共振	- 弯腰姿势
	iv.直立性低血压	断层扫描	- 静止时震颤
	v.睡眠障碍，如快速眼动睡眠行为障碍	- 生化生物标志物	- 步态障碍
	vi.便秘和其他自律神经失调特征。	- 基因生物标志物	- 手臂、腿部僵硬、
	vii.泌尿系统功能障碍。		后车厢
	viii.情绪障碍和神经行为异常		- 平衡和协调能力差

图 2.用于跟踪帕金森病随时间进展情况的生物标记物。

在过去的三十年中，许多神经影像学方法，如磁共振成像（MRI）、单光子发射计算机断层扫描（SPECT）、正电子发射计算机断层扫描（PET）、经颅声学扫描和功能磁共振成像（fMRI），都被用来追踪这些区域神经元缺失的变化，并将其作为早期诊断帕金森病的生物标志物。尤其是磁共振成像（MRI）和多巴胺转运体扫描（DaT 扫描）生物标志物的分析已被证明在区分帕金森病与其他运动相关疾病的特征方面非常有用。

3.1.1.核磁共振成像

脑磁共振成像（MRI）扫描评估是早期检测帕金森病最广泛使用的诊断范例。最近，磁共振（MR）脑成像技术在早期帕金森病的诊断方面取得了可喜的成果，而且有望比标准临床检测更加准确。核磁共振成像可以检测黑质中的铁沉积，追踪大脑结构的变化。它还能让我们看到大脑的基本状态。神经病学通常是一个常规检查领域，没有重大发现。帕金森病患者的常规磁共振成像检查可用于诊断帕金森叠加综合征和继发性帕金森综合征。

3.1.1.1.用于诊断帕金森病的磁共振成像模式。T2 MRI - 铁沉积会导致局部磁场不均匀，从而导致 T2 信号丢失。由于铁蛋白引起的局部磁场异质性，铁

其分布在 T2 加权图像上表现为信号低强度（暗）。T2加权高场磁共振成像为评估锥体外系运动系统提供了独特的机会。根据对帕金森病患者大脑的病理检查，他们的黑质含铁量比正常人高。由于铁的积累会改变磁共振信号，尤其是 T2 信号，因此，研究人员利用磁共振 T2 驰豫测量、T2-和 T2* 加权图像的组合以及 T 2 驰豫测量序列对回波间时序的依赖性来评估帕金森病患者铁含量的变化。

使用T2加权核磁共振成像技术对中脑进行成像显示，由于与帕金森病相关的多巴胺能神经元的缺失，黑质紧密旁（SNc）和黑质网状旁（SNr）发生了重要的结构变化。它能检测这些区域因铁沉积而导致的信号强度变化。铁会改变磁场的均匀性，降低组织中磁共振信号的强度[15,43,52]。

SNr由于含铁量高，导致T2弛豫时间缩短，因此具有较强的低密度信号[15]。帕金森病主要影响 SNc 中的多巴胺分泌神经元，这些神经元含有较多的神经髓鞘，其特征是 SNr 周围出现相对高密度的信号。然而，由于这些区域之间没有明确的分界，即使应用较高的磁场也很难从 T2 图像中划分出这些区域。根据[17]的研究，SNc 的大小显著缩小是因为 SNr 中的铁含量增加或 SNc 中的 DA 神经元死亡。这些结构变化与 SNr 低强度的 "模糊化 "和 SNc 中 DA 神经元的减少有关。

在 MR 成像中，RN 与 SN 之间的距离[16]。研究还发现，在黑质中存在 T2 加权高强化信号强度或低强化信号强度减弱[7]。图 3 描述了通过 T2 加权 MRI 图像观察到的对照组和帕金森病患者黑质大小的差异。第二张图像显示黑质区域明显模糊，与红色核的距离缩短。

神经褪黑素敏感核磁共振成像（NM-MRI）--检测SNc神经变性的其他可行方法包括通过神经褪黑素敏感T1加权核磁共振成像（NMMRI）观察神经褪黑素[44]。神经褪黑素积聚在特定的自噬细胞器中，最终积聚在SN中的多巴胺能神经元（DA）的躯干中。由于DA内神经元的减少，帕金森病患者的神经络氨酸含量约为同年龄组对照组的

50 %

至

60 %

。神经络氨酸敏感核磁共振成像（NM-MRI）依靠定量磁化转移（MT）和T1效应检测神经络氨酸阳性多巴胺神经元。帕金森病患者SN的NM-MRI一直低于对照组。此外，初步证据表明，帕金森病患者神经黑素信号的纵向变化可作为疾病进展的标志。

在帕金森病患者中，细胞内铁-神经络氨酸复合物的含量低会导致核磁共振成像（NM-MRI）信号强度降低。即使在早期阶段，通过测量 NM-MRI 中神经络氨酸信号的损失，也能准确地将帕金森病患者与对照组区分开来

[9, 35, 45]

。图 4 利用 T1 加权 NM 敏感核磁共振成像显示了正常人和帕金森病患者神经络氨酸信号强度的差异。

SWI - 除了观察黑质核的信号变化外，还提出了其他几种通过 T2 加权图像诊断帕金森病的方法。帕金森病患者大脑黑质核和基底节区域有大量铁沉积。研究发现，脑核中的铁沉积与核磁共振成像过程中的图像变化密切相关，与传统序列相比，SWI 技术更能突出组织间磁感应强度的差异。处理后的图像显示了局部磁场的不均匀性以及富含铁的组织对质子自旋相的改变。帕金森病患者的大脑黑质和基底节核有大量铁沉积。

一些研究发现，多巴胺能细胞在SN中逐渐丧失，主要是在黑质组-1区域，该区域的多巴胺能细胞丧失最为严重。黑质组-1（N1）是五个钙调蛋白稀缺区中最大的一个，位于鼻窦背内侧尾部（最尾端）。直接

现在，利用梯度回波成像和感度加权成像（SWI）的高分辨率 3-T 和 7-T MRI 技术[3,13]，可以实现对鼻窦黑质体的可视化。黑质体-1 征的特征是两个低密度的尾巴和一个高密度的中心，在 T2 易感加权成像（SWI）上被称为 "燕尾征（STS）"。

Calloni等人[8]发现，识别N1在区分帕金森病和对照组方面的敏感性和特异性分别为

96.43 %

和

85 %

，但N1在区分帕金森病和非帕金森病方面的特异性较低。虽然这种方法在鉴别帕金森病患者方面表现出很高的诊断性能，但由于大多数医院缺乏高分辨率核磁共振成像，因此大规模应用这种方法并不现实。图 5 展示了利用 3 T2 加权磁共振成像扫描仪和感度加权成像（SWI）将燕尾征作为生物标记物，用于从帕金森病患者中识别健康（正常）受试者的情况。

3.1.2.经颅超声检查（TCS）

德国学者贝克尔于 1995 年提出，黑质的高回声程度与帕金森病的严重程度和持续时间密切相关。目前认为，回声增强是由黑质多巴胺能神经元异常铁沉积引起的，这意味着黑质和纹状体的多巴胺能系统功能受损。Vlaar等人[53]发现，与帕金森病患者的

23 %

和健康人的

6 %

相比，非典型帕金森综合征患者的

79 %

光栅核回声增强。

Sn +

在MSA和PSP中并不常见，分别只占

30 %

和

17 %

。因此，光栅核的超声波检查是正常的，sn + 强烈提示帕金森病。

3.1.3.DaT 扫描

目前，DAT-PET 成像被认为是帕金森病最准确的分子成像标记。DAT-PET 可用于帕金森病（PD）与非帕金森病样震颤、药物性帕金森病、精神性帕金森病和血管性帕金森病的鉴别诊断。它被视为疾病的早期诊断指标。在多巴胺神经元的突触前膜上，有一种名为 DAT 的蛋白质负责转运多巴胺。它的作用是主动将释放的多巴胺从突触间隙运回突触前区，以维持突触的正常生理功能。它可用于确定纹状体突触前神经纤维中的多巴胺能神经纤维终端是否功能活跃。

最近，DaT 扫描的使用率大幅上升。

图 3.正常中脑（A）与帕金森病中脑（B）的轴向 T2 MR 图像对比图。随后，红色核和黑质几乎相触[37]。(关于本图例中颜色的解释，请读者参阅本文的网络版）。

图 4.健康志愿者（A）和帕金森病患者（B）的轴向脑干切片显示，患者黑质的神经褐素信号强度降低[40]。

图 5.用 3 T 磁共振进行的感度加权成像（SWI）扫描。（a）健康患者存在规则的燕尾征；（b）帕金森病患者燕尾征消失。[18].

由于传统的核磁共振成像对捕捉黑质的变化不够敏感，因此可以通过成像来帮助诊断帕金森病[46]。然而，PET 和 SPECT 成像模式只能在 80% 的神经元开始退化和疾病显现时诊断疾病 [1]。因此，治疗只能在疾病的后期进行，导致治疗无效。为了评估疾病的严重程度和进展情况，必须在进行 SPECT 和 PET 成像的同时确定 MRI 等其他生物标志物，以便早期诊断帕金森病，从而采取更好的治疗措施 [49]。在需要区分帕金森病与本质性震颤（ET）或帕金森病附加综合征（药物诱发的帕金森病）的情况下，DaT 扫描非常有用[14,26]。

黑质中多巴胺能神经元的缺失会导致纹状体中黑质神经元的退化。多巴胺转运体（DaT）控制着多巴胺在黑质和纹状体之间的流动。DaT扫描是一种利用单光子发射计算机断层扫描（SPECT）检测大脑中多巴胺转运体（DaT）的技术。在人体静脉注射碘-123氟丙基（123I-FP-CIT）后的3-6小时内，示踪剂会循环到大脑并与多巴胺转运体（DAT）结合，然后通过SPECT成像进行记录[6,22]。

在一项为期 4 年的临床随访评估中，[24] 显示 DATSPECT 成像可以检测出脊髓灰质炎发病的可能性，

5 %

。

DAT结合率逐年下降。Suwijn等人[51,4]的研究表明，使用DAT-SPECT成像对帕金森病患者进行诊断的准确性很高，灵敏度从

79 %

到

100 %

不等，特异性从

80 %

到

100 %

不等。尽管通过捕捉纹状体的变化对帕金森病的早期筛查取得了巨大成功，但由于拍摄 DaT 扫描图像所需的高昂费用，大多数医院都无力部署。图 6 显示了健康患者和帕金森病患者纹状体放射性示踪剂摄取量的变化。

由于分析大脑皮层下区域的固有特征和不同方面对人眼来说极具挑战性，因此，计算机辅助检测系统最近被用于利用多维医疗数据诊断帕金森病[5,32]。多年来，各种基于机器学习（ML）和深度学习（DL）的帕金森病检测技术相继问世[55]。一些机器学习模型，如奈维贝叶斯（NB）、支持向量机（SVM）、逻辑回归、随机森林（RF）和决策树已被用于帕金森病的诊断。[34]的研究表明，区分帕金森病患者痴呆症和健康大脑的最佳分类器是基于多元滤波器的奈何贝叶斯模型，它具有最高的交叉验证灵敏度。使用机器学习技术，如逻辑回归、随机森林、提升模型、多变量滤波等，可以对痴呆症患者和健康大脑进行区分。

图 6.对照组（A）和帕金森病患者（B）的 PPMI DaT-SPECT 图像显示，普鲁士门和尾状核的放射性示踪剂摄取量大幅减少。

树和支持向量机（SVM），[39] 利用患者问卷调查开发了检测帕金森病发病的预测模型。他们的研究表明，这些技术能以较高的准确率和 ROC 曲线下面积（均为

> 95 %

）将早期帕金森病患者与健康患者区分开来。Fuzzy k-nearest neighbor (FKNN) 在文献[11]中被用于诊断帕金森病，准确率很高。在 10 倍交叉验证中，基于 FKNN 的方法优于 SVM，其分类准确率为

96.07 %

。研究中使用了主成分分析法（PCA）来减少特征的数量。一些机器学习算法也被用于各种脑成像模式的帕金森病自动诊断。文献[1]使用随机森林（Random Forests）来选择特征，并使用支持向量机（Support Vector Machine）将复杂的网络特征与临床评分相结合，诊断准确率从

88 %

到

93 %

不等。Shinde等人[48]简要介绍了近期利用机器学习从不同磁共振成像模式预测帕金森病的研究，如表2所示。

尽管机器学习模型已在该领域取得了重大进展，但要利用人工神经网络或其他机器学习技术产生高于

90 %

的结果来诊断帕金森病仍具有挑战性。大多数机器学习算法都是根据从核磁共振成像数据中提取的人为特征做出决定的。人为特征与后续分类或回归模型之间可能存在很大的相关性，这导致最佳学习性能不佳，适应新数据的能力下降。这为采用深度学习方法将特征提取和模型学习结合到一个框架中以提高诊断性能打开了大门。用于医学图像分析的深度学习最近取得了一些最显著的成果。卷积神经网络（CNNs）被认为在医学图像处理领域（如分类和分割）取得了一些尖端成果，并被广泛应用于现实世界的各种应用中。[10].

基于一个包含核磁共振成像和 DaTscan 图像数据的新型帕金森病数据库，深度卷积和递归神经网络（CNNs，CNN-RNNs）被用于诊断帕金森病，并取得了非常高的预测准确率[55]。最简单的 CNN 架构 LeNet-5 被用于从 MRI 图像中早期诊断帕金森病，在应用了批量归一化和剔除技术以减少过拟合后，其准确率达到了

97.92 %

。实验从年龄在 60 至 75 岁之间的 PPMI 数据集中选取了 30 名帕金森病患者和 24 名对照组受试者。

迁移学习是一种典型的深度学习技术，它可以存储

利用原始数据集从训练好的 DNN 模型中学到的知识，将其用于初始化另一个模型，从而加快学习过程 [55]。利用迁移学习训练 AlexNet 架构以诊断帕金森病的研究包括 [49,28]。Sivaranjini 和 Sujatha[49]利用纹状体区域灰质强度损失作为生物标记物来识别帕金森病患者。在从每个受试者身上选取

40 \pm 5

切片后，使用 PPMI 数据集对所提出的模型进行了训练。在使用迁移学习对最后三层进行更新后，该模型的准确率达到

88.90 %

，灵敏度和特异性值分别为

89.30 %

和

88.40 %

。文献[28]采用了基于 GAN 的数据增强技术，以增加预训练 AlexNet 模型的训练数据量。通过用预先训练好的 ImageNet 权重初始化前几层并微调最后的全连接层，所提出的模型达到了

89.23 %

的准确度。

[10]使用 PPMI 的 3T T1 加权磁共振成像扫描，从健康组和帕金森病组各选出 203 名受试者。他们提出了一个定制的三维 CNN 模型，共有 35 层，总体准确率达到 95.29%。在预处理阶段进行了图像配准，将所有图像对准蒙特利尔神经研究所（MNI）空间的固定坐标系。另一种通过 T1 加权图像诊断帕金森病的方法是使用 MR 图像中的灰质（GM）、白质（WM）和全脑区域来训练两个独立的集合架构。他们报告称，使用平滑的 GM 和 WM 提取物的准确率为

94.7 %

，优于使用全脑图像的准确率。

已有多项研究利用深度学习技术，通过神经髓鞘磁共振成像（NM-MRI）来评估黑质的变化。Shinde等人[48]创建了一个CNN网络，利用神经络氨酸敏感核磁共振成像（NMS-MRI）诊断帕金森病，最佳测试准确率为

80 %

。该结果优于基于对比度的分类器和放射线分类器，这两种分类器的测试准确率分别为

56.5 %

和

60.3 %

。该研究发现，左侧SNc在分类中起着重要作用，这与帕金森病的不对称概念相一致。一项相关研究（Le [29]）使用神经髓鞘磁共振成像（NM-MRI）比较了基于 U 网的帕金森病诊断模型和传统人工分割方法的准确性。从两台不同的 3 T 扫描仪上获取的图像被分为一个主要数据集（有 122 名参与者）和一个外部验证数据集（有 24 名参与者），其中分别包含 62 名和 12 名帕金森病患者。U-net分割在两个主要数据集中都表现出了良好的诊断性能（接收者操作特征曲线下面积：U-net，0.950）：U-net, 0.950; manual, 0.948）和外部验证数据集（U-net, 0.944; manual, 0.931）中均表现出良好的诊断性能。

表 2

简要回顾近期利用机器学习和统计学习技术从核磁共振成像模式预测脊髓灰质炎的研究采用的方法（Shinde等人，2019年）。

作者，年份

受试者人数

采用的方法

准确性 (%)

萨尔瓦多等人，2014 年

\begin{aligned} PD (n = 28) \\ PSP (n = 28) \\ HC (n = 28) \end{aligned}

VBM PCA SVM

PD vs HC: 83.2 PSP vs HC: 86.2 PSP vs PD: 84.7

Cherubini 等人，2014a，2014b

震颤显性脊髓灰质炎

(n = 15)

ET伴静止性震颤

(n = 15

)

\begin{aligned} VBM, DTI \\ SVM \end{aligned}

Cherubini 等人，2014a，2014b

\begin{aligned} PD (n = 57) \\ PSP (n = 21) \end{aligned}

\begin{aligned} VBM, DTI \\ SVM \end{aligned}

100

拉纳等人，2015 年

\begin{aligned} PD (n = 30) \\ HC (n = 30) \end{aligned}

基于兴趣区域的 SVM

86.67

Singh 和 Samavedham，2015 年

PPMI 组群 PD

(n = 518)

SWEDD (

n = 68

)HC

(n = 245)

自组织图 SVM

99.9

Huppertz 等人，2016 年

\begin{aligned} PD (n = 204) \\ PSP-RS (n = 106) \\ MSA-C (n = 21) \\ MSA-P (n = 60) \end{aligned}

体积测量 SVM

阿德利等人，2016 年

PPMI队列 PD

(n = 374)

(n = 169)

特征-样本联合选择

81.9

阿波斯等人，2017 年

\begin{aligned} PD (n = 27) \\ HC (n = 38) \end{aligned}

功能连接组 SVM

佩兰等人，2018 年

\begin{aligned} PD (n = 26) \\ MSA-P (n = 16) \\ MSA-C (n = 13) \\ HC (n = 26) \end{aligned}

VBM, T2* 放松测量、DTI 自组织地图

PD 对 MSA：

96

[1]

PPMI队列 PD

(n = 374)

(n = 169)

连接性测量 SVM

Ariz 等人，2019 年

\begin{aligned} PD (n = 40) \\ HC (n = 39) \end{aligned}

基于核磁共振成像的黑质下地图集

79.9

| Author, year | Number of subjects | Methods employed | Accuracy (%) | | :---: | :---: | :---: | :---: | | Salvatore et al., 2014 | $\begin{aligned} & \text { PD }(\mathrm{n}=28) \\ & \text { PSP }(\mathrm{n}=28) \\ & \text { HC }(\mathrm{n}=28) \end{aligned}$ | VBM PCA SVM | PD vs HC: 83.2 PSP vs HC: 86.2 PSP vs PD: 84.7 | | Cherubini et al., 2014a, 2014b | Tremor dominant PD $(\mathrm{n}=15)$ ET with rest tremor $(\mathrm{n}=15$ ) | $\begin{aligned} & \text { VBM, DTI } \\ & \text { SVM } \end{aligned}$ | | | Cherubini et al., 2014a, 2014b | $\begin{aligned} & \text { PD }(\mathrm{n}=57) \\ & \operatorname{PSP}(\mathrm{n}=21) \end{aligned}$ | $\begin{aligned} & \text { VBM, DTI } \\ & \text { SVM } \end{aligned}$ | 100 | | Rana et al., 2015 | $\begin{aligned} & \mathrm{PD}(\mathrm{n}=30) \\ & \mathrm{HC}(\mathrm{n}=30) \end{aligned}$ | Region of interestbased SVM | 86.67 | | Singh and Samavedham, 2015 | PPMI cohort PD $(\mathrm{n}=518)$ SWEDD ( $\mathrm{n}=68$ ) HC $(\mathrm{n}=245)$ | Self-organizing maps SVM | 99.9 | | Huppertz et al., 2016 | $\begin{aligned} & \text { PD }(\mathrm{n}=204) \\ & \text { PSP-RS }(\mathrm{n}=106) \\ & \text { MSA-C }(\mathrm{n}=21) \\ & \text { MSA-P }(\mathrm{n}=60) \end{aligned}$ | Volumetry SVM | 80 | | Adeli et al., 2016 | PPMI cohort PD $(\mathrm{n}=374)$ HC $(\mathrm{n}=169)$ | Joint feature-sample selection | 81.9 | | Abos et al., 2017 | $\begin{aligned} & \mathrm{PD}(\mathrm{n}=27) \\ & \mathrm{HC}(\mathrm{n}=38) \end{aligned}$ | Functional connectome SVM | 80 | | Peran et al., 2018 | $\begin{aligned} & \text { PD }(\mathrm{n}=26) \\ & \text { MSA-P }(\mathrm{n}=16) \\ & \text { MSA-C }(\mathrm{n}=13) \\ & \text { HC }(\mathrm{n}=26) \end{aligned}$ | VBM, T2* relaxometry, DTI Self-organizing maps | PD vs MSA: $96$ | | [1] | PPMI cohort PD $(\mathrm{n}=374)$ HC $(\mathrm{n}=169)$ | Connectivity measures SVM | 93 | | Ariz et al., 2019 | $\begin{aligned} & \mathrm{PD}(\mathrm{n}=40) \\ & \mathrm{HC}(\mathrm{n}=39) \end{aligned}$ | NM-MRI-based atlas of Substantia nigra | 79.9 |

DTI: 弥散张量成像；ET：HC：健康对照组：MSAC：以小脑特征为主的多系统萎缩；MSA-P：以帕金森特征为主的多系统萎缩；NM-MRI：神经黑素敏感磁共振成像；PD：帕金森病；PPMI：帕金森病：PD：帕金森病；PPMI：帕金森病进展标志倡议；PSP：进行性核上性麻痹；PSP-RS：进行性核上性麻痹：PSP：进行性核上性麻痹；PSP-RS：进行性核上性麻痹-理查森综合征；SVM：支持向量机：SWEDD：无多巴胺能缺陷证据的扫描；VBM：基于体素的形态测量。

NM-MRI，这与既定的人工方法不相上下。

Ortiz 等人[36] 开展了一项研究，将从 PPMI 数据库的 3D DaT-SPECT 扫描中提取的等值面或孤立面（等值面的二维版本）用于检测帕金森病。他们实施了基于三维 LeNet 和 AlexNet 的 CNN 模型，准确率和 AUC 分别达到

95.1 %

和

97 %

，比最近提出的系统有了显著提高。虽然深度神经网络可以分析大量数据，但它们的决策是不透明的，即很难验证它们的预测，因为我们并不确切知道模型是利用哪些特征得出结论的。它们还需要大量数据来学习和适应不同的医疗环境。为了解决上述一些问题，并缓解遇到新数据时的遗忘问题，[55] 使用 CNN 和 CNN-RNN 开发了一种统一的预测模型，用于从 DaT 扫描和 MRI 图像组合中诊断 PD。他们使用了从深度神经网络中提取的简明特征表征，这些特征表征是在对来自两个病例的 DaT 扫描和 MRI 图像进行训练后提取的。

数据集来解决领域适应问题。

5.动机

我们在研究过程中面临的主要挑战之一是，用于研究帕金森病诊断的多模态磁共振成像数据有限。与单模态磁共振成像数据相比，多模态磁共振成像数据能提供更全面、更准确的大脑结构和功能信息。然而，获取多模态磁共振成像数据既费钱又费时，而且很少有为此目的的公开数据集。因此，我们只能依靠从 PPMI 和 IXI 数据集收集的单模态 MRI 数据集。

我们遇到的另一个挑战是核磁共振图像缺乏适当的注释。注释对于训练和评估用于检测和分割任务的深度学习模型至关重要。然而，核磁共振成像图像注释是一个繁琐而主观的过程，需要专家的知识和技能。我们不得不在一位神经科医生的帮助下手动标注数据集中的每张图像，这耗费了大量的时间和精力。

为了克服这些挑战，我们采用了两种技术：数据增强和迁移学习。数据扩增是一种通过应用各种转换（如旋转、缩放、翻转、裁剪等）从现有数据生成新数据的技术。数据扩增可以增加数据集的多样性和规模，从而提高模型的泛化和鲁棒性。迁移学习是一种利用从不同但相关的领域或任务中学到的知识的技术。迁移学习可以减少对大量标注数据的需求，加快训练过程。我们使用这两种技术来增强我们的数据集，提高模型的性能。

我们的目标是开发一种技术，分别从 T2 加权核磁共振成像和 DaTScan 图像中检测和分割黑质和纹状体等感兴趣区（ROI），并将其用于定量分析和决策制定。大多数技术都依赖于使用整个 MRI 和 DaT 扫描图像来训练分类模型，但由于工程特征与后续分类或回归模型之间可能存在高度相关性，因此学习效果并不理想。与使用整个图像进行特征提取和分类的现有方法不同，我们的方法侧重于与诊断帕金森病相关的 ROI。由于使用工程特征的局限性，以及使用从感兴趣区域而非非相关区域提取的特征作为决策依据的优势，检测和分割模型的性能可以得到显著提高。

本文的主要贡献概述如下：

我们从 PPMI 和 IXI 数据集中手动标注了 MRI 和 DaT 扫描图像的 ROI，并训练了最先进的卷积神经网络（CNN），如 YOLO 和 UNET 集合，以准确定位和分割 ROI。
为了提高基本 UNet 模型的语义分割性能，我们尝试使用不同的深度卷积神经网络作为编码器。我们选择了三种流行的骨干网络：VGG19、EfficientNet-B4 和 ResNet50，并将它们与 UNet 编码器集成。与浅层 UNet 编码器相比，这些骨干网络能从输入图像中提取出更有意义的特征。
我们提出了一种集合方法，用于提高不同骨干模型的分割性能。这种集合方法使用非加权平均或加权平均的方式，将不同架构的多个模型的输出结果结合起来。我们对这两种平均方法进行了试验，发现在采用网格搜索技术为每个模型找到最佳权重后，加权平均法获得了最高的平均 IOU。
为了评估分割模型，我们采用了一种新的混合损失函数，该函数结合了焦点损失和骰子损失。焦点损失有助于解决类别不平衡的问题，因为它减少了 "好 "类别对 "坏 "类别的贡献。

分类示例，重点关注难分类示例。骰子损失（Dice loss）可以测量预测掩码和地面实况掩码之间的重叠度，同时引入一些可变性，而且也是可微分的。
我们还创建了一个软件工具，可将图像中的 ROI 可视化。我们的方法首次解决了使用核磁共振成像和 DaT 扫描图像诊断帕金森病时数据稀缺和 ROI 识别的难题。

6.方法论

本节介绍了数据集、预处理步骤以及建议方法的实施细节。本节还解释了用于训练网络的损失函数以及用于评估其性能的指标。

6.1.方法

在这项研究中，我们使用了两种生物标志物来区分早期帕金森病患者和健康受试者。

T2 加权 sMRI - 定位黑质区域并比较结构变化以诊断患者。
DaT 扫描 - 通过定位和比较尾状核和普塔门核纹状体区域的大小差异。

6.2.数据采集

帕金森病进展标志物倡议（PPMI）（https://www.ppmi-info.org）除了为更广泛的研究界提供全面、标准化的纵向数据集和生物样本库，以加快发现和验证新成果的临床应用外，还寻求确定帕金森病风险、发病和进展的生物标志物，这些标志物是创造新的和改进的治疗方法的重要工具。

PPMI 的目标是利用增强成像和生物采样来发现帕金森病的生物标志物，并对具有重大意义的群体进行评估。这项研究正在美国、欧洲、以色列和澳大利亚的临床研究机构进行。从研究参与者那里收集的数据和样本有助于建立一个全面的帕金森病数据库和生物库。PPMI 数据集中的参与者可分为以下几类。

帕金森病（Parkinson's disease，PD）--具有致病基因变异或早期发病、未经治疗的散发性帕金森病患者。
前驱期 - 由于临床特征、基因变异或其他生物标志物而有患帕金森病风险的人。
健康对照组 - 没有神经系统疾病且一级直系亲属中没有人患有帕金森病的参与者被视为健康对照组。

核磁共振成像研究从帕金森病进展标志物倡议（PPMI）数据集中选取了 450 名早期帕金森病患者和 103 名年龄在 50-79 岁之间的对照组受试者。所有图像均为 T2 加权图像，在 T1 解剖空间内拍摄。所有帕金森病患者和正常人身体健康，无内科或神经系统疾病史。扫描使用的是西门子 Trio 3 Tesla MRI 扫描仪，并使用 3D MPRAGE 序列获取解剖图像。解剖数据预处理包括利用脑提取工具（BET）去除 T 2 解剖图像中的非脑组织。

如上图所示，由此产生的数据存在类别不平衡的问题。为了解决这个问题，我们从公开的 IXI 数据集（https://brain-development.org/ixi-dataset/）中收集了 347 张对照组受试者的 T2 加权结构 MRI（sMRI）扫描图像。大脑发育组的 IXI 数据集包含近 600 张来自正常健康受试者的 MRI 图像。这些数据是在三家不同的医院收集的
在伦敦。

PPMI数据集包括神经成像信息学技术倡议（NIfTI）和医学数字成像和通信（DICOM）格式的预处理磁共振成像数据。DICOM 是一种医学图像交换和传输标准，允许整合来自多个制造商的医学成像设备。NIfTI 是一种开放式文件格式，广泛用于保存通过磁共振成像获得的脑成像数据。它是一种新的分析式数据格式，允许功能磁共振成像数据分析软件包相互通信。不过，在本研究中，NIfTI 格式的数据是从帕金森病数据库和生物库中获取的。

核磁共振成像的最终数据集包括早期帕金森病和对照组的 450 个 NIfTI 文件。PPMI 数据集和 IXI 中的预处理 MRI 3D 数据均为 NIFTI 格式。还从 PPMI 下载了 DaT 扫描数据，并为早期帕金森病和对照组选择了 315 个 NIfTI 文件。使用MRIcron工具（https://people.cas.sc. edu/rorden/mricro/）、3D Slicer（https://www.slicer.org/）和神经成像软件包Nibabel（https://nipy.org/nibabel/）对从PPMI数据集下载的NIFTI格式图像进行可视化，以研究感兴趣的区域。MRIcron 对于需要快速高效研究医学影像的医学专业人员或学生尤其有用。三维切片器（Slicer）工具也是一款免费开源的图像分析和科学可视化软件套件。PPMI 的临床数据转储还包括患者的年龄、就诊时间、性别和采集数据。

6.3.预处理

PPMI 数据集源自一项观察性纵向研究，该研究旨在确定帕金森病进展的生物标志物。该研究的组织者在公开这些图像之前对其进行了预处理。他们采取了几个步骤来确保数据的质量和可比性。首先，他们使用非线性变换将所有图像共同注册到相同的解剖模板上。其次，他们将图像插值到相同的分辨率（1 毫米 3），并使其各向同性。第三，他们使用线性变换将所有图像对齐到一个名为蒙特利尔神经研究所（MNI）的标准空间。数据被注册为 MNI152 格式，这是一种广泛用于神经成像分析的模板。然而，由于扫描来自不同的机器，采集参数也不同，因此数据之间仍存在形态和维度差异。为了使数据具有可比性，我们必须将其标准化为通用格式。图 7 显示了准备数据集和预处理管道的整个工作流程。

磁共振成像转换 - 首先从 PPMI 和 IXI 数据集下载磁共振成像数据。每个 T2 MRI 图像的体积为 $256 \times 256 \times$ 256。这些图像在 z 轴和 t 轴上串联，然后转换为二维图像堆栈，其中每个二维图像以 PNG 格式表示每个切片。每个核磁共振成像 NIfTI 卷有 256 个切片，首先使用 python 代码利用 nifti2png 软件包将这些切片转换为 PNG 格式，然后选择可以清晰看到黑质的两个切片（见图 8）。(见图 8）
DaT 扫描转换 - 每个 DaT SPECT 都以 $91 \times 109 \times 91$ 形的三维体积显示。在研究了其他研究的图像预处理方法并对每张切片进行目测分析后，决定第 40-41 张切片似乎能说明像素强度最高的感兴趣区。每个 DaT SCAN NIfTI 卷有 91 张切片，首先使用名为 MRIcron 的工具将这些切片转换为 PNG，然后选择了两张可以清楚看到尾状核和普坦门核的切片。
图像标记 - 所有对照组图像都标记为 "0"，而 PD 图像则标记为 "1"。然后将这些图像分为训练集、验证集和测试集。

图 7.准备数据和预处理管道。

4.训练集、验证集和测试集的分割 - 从 NIfTI 转换为 PNG 格式后，在训练模型之前，将 MRI 和 DaT 扫描数据集分割为训练集、验证集和测试集。MRI 数据集包含两类共 900 张图像。然后对其进行分割，其中训练集由 600 幅图像组成，验证集由 200 幅图像组成，测试集由 100 幅两类图像组成。预处理后的 DaT 扫描数据集包含两类共 630 幅图像。以同样的方式对它们进行分区，训练集由 420 幅图像组成，验证集由 150 幅图像组成，测试集由 60 幅图像组成。需要注意的是，将数据集划分为训练集、验证集和测试集并不重要，可能会产生非常相似的结果。它是

重要的是，这些集合是相互排斥的，而且是随机选择的。(见表 3 和表 4）。

5.调整大小 - 我们使用近邻插值法将所有扫描图像调整为相同尺寸。图像分割的挑战之一是在不丢失原始像素值的情况下调整分割蒙板的大小。调整分割掩码大小的常用方法是使用近邻插值法，它将最接近像素的值分配给新像素。这种方法保留了掩码的二进制或离散性，而其他插值方法则通过平均相邻像素来引入新值。例如，双线性插值会考虑像素周围已知像素值的最近

2 \times 2

邻域，然后对这些像素进行加权平均，得到最终的插值（可以是浮点值）。这样生成的图像比

图 8.将磁共振成像体积转换为图像分析格式。

表 3

分区后的最终磁共振成像数据集。

数据集	控制	PD
培训	600 幅图像	600 幅图像
验证	200 幅图像	200 幅图像
测试	100 张图片	100 张图片

表 4

分区后的最终 DaT 扫描数据集。

数据集	控制	PD
培训	420 幅图片	420 幅图片
验证	150 幅图像	150 幅图像
测试	60 幅图像	60 幅图像

近邻插值，但它会导致某些具有分割掩码的切片图像全黑。

6.归一化--为了尽量减少差异，核磁共振成像和 DaT 扫描图像都在

[0, 1]

值之间进行了归一化处理。我们将每次扫描的强度值归一化，使其均值为零，方差为单位。我们使用最小-最大归一化器来消除图像强度变化对预测准确性的影响。这样，所有特征都被转换为 [0,1] 范围，其中 0 和 1 是每个特征/变量的最小值和最大值。这种归一化的公式为

x_{scaled} = \frac{x - min (x)}{max (x) - min (x)}

其中，

x_{scaled}

是数据中每个条目的新值，

x

是数据中每个条目的旧值。而

max (x)

和

min (x)

分别是特征的最大值和最小值。

7.数据扩增--一套被称为 "数据扩增 "的技术可用于从现有数据中创建新的数据点，从而人为地增加数据量。这包括对数据进行细微改动，以及利用深度学习模型创建新的数据点。为了使检测模型能更多地概括数据，它使用了一些最好的数据增强方法。而不是仅仅依靠几个特征来识别物体。

当使用增强数据时，模型必须在增强数据中找到新的特征来识别物体。

CutMix 数据增强功能被 YOLOv4 首次引入的 Mosaic 数据增强功能所取代。马赛克的概念非常简单。需要四幅图像才能生成一幅最终图像。四幅图像中的每一幅都会被调整大小并拼接在一起，然后使用拼接图像的随机剪切来创建最终的马赛克图像。与只混合两张输入图像的 CutMix 相比，四张不同背景的图像被合并在一起。这样就能检测到不在其典型上下文中的物体。此外，批量归一化还能根据 4 幅不同的图像计算出每一层的激活统计数据。因此，对小批量数据规模的要求大大降低。yolov5 和 yolov7 模型都使用了这些数据增强方法，它们被选中用于检测任务。(见图 9）

8.用于检测任务的注释 - MRI 和 DaT 扫描图像都已注释，以便用于检测任务。为了准备用于检测任务的数据集，以便从核磁共振成像和 DaT 扫描图像中定位感兴趣区域，我们使用 LabelMe 注释工具（https://labe lme.csail.mit.edu/Release3.0/ ）为每个类别添加基本真实边界框和标签。LabelMe 是由麻省理工学院计算机科学与人工智能实验室（CSAIL）创建的一个项目，它提供了一个带有注释的数字图像数据集。它使用 Python 编写，图形界面使用 Qt。每张图像都由人工标注，分别标注核磁共振成像和 DaT 扫描图像中的黑质和纹状体区域。为核磁共振成像和 DaT 扫描图像上的每个边界框分配了两个类别。用于核磁共振成像的类别包括健康的黑质下部和不健康的黑质下部。DaT 扫描图像也被标记为健康纹状体或不健康纹状体。

9.分割任务的注释 - 对于分割任务，使用 VGG 图像注释器（VIA）（https 😕/www.robots.ox.ac.uk/〜vgg/software/via/ tool）进行标注。VIA 是牛津大学学者开发的图像和视频注释工具。它是一个简单轻便的应用程序，可完全在网络浏览器中运行。为核磁共振成像和 DaT 扫描图像指定了四个类别，用于标注左右侧 SNr 和纹状体。用于核磁共振成像图像的类别包括

图 9.马赛克数据增强示例（A）显示了四张 DaT 扫描图像，（B）显示了对照组和帕金森病受试者的四张 MRI 图像。

健康左侧纹状体、健康右侧纹状体、不健康左侧纹状体和不健康右侧纹状体。DaT扫描图像被标记为健康左侧纹状体、健康右侧纹状体、不健康左侧纹状体或不健康右侧纹状体。

6.4.网络架构

6.4.1.探测模型

在检测任务中，选择了 YOLO 算法来提出边界框并提供分类分数。对从 PPMI 数据集收集的 T2 加权 MRI 和 DaT 扫描数据图像进行标记后，对 YOLOv5 和 YOLOv7 检测网络进行训练，以选择预测感兴趣区位置的最佳模型。首先，使用 YOLOv5 模型执行检测任务。YOLOv5 是 Ultralytics 最近创建的物体检测模型之一，该公司也创建了 Pytorch 版本的 YOLOv3。根据 Ultralytics GitHub 页面的介绍，该公司的开源 YOLOv5 实现库（https://github.com/ultralytics/ yolov5）在发布时被认为是最先进的 YOLO 实现。克隆该资源库是为了使用我们的自定义数据集训练模型。它的设计与 YOLOv4 类似，后者采用 CSPDarknet53 作为主干，SPP 块和路径聚合作为颈部，YOLOv3（基于an-chor）作为头部。Yolov5 的网络架构。它由三部分组成：（1）骨干网：CSPDarknet，(2) Neck：头部：YOLO 层。数据首先输入 CSPDarknet 进行特征提取，然后输入 PANet 进行特征融合。最后，YOLO 头部层输出检测结果（类别、分数、位置、大小）[56]。

另一个用于检测实验的模型是 YOLOv7 模型，该模型引入了若干架构变化，从而提高了速度和准确性。为了使用自定义数据集训练模型，我们克隆了 yolov7 论文官方实现的 GitHub 存储库 (https://github.com/WongKinYiu/yolov7) 。该架构受到 YOLOv4、Scaled YOLOv4 和 YOLO-R 的启发，并且没有使用已经在 ImageNet 上训练过的骨干，而是仅使用 COCO 数据集进行训练。(见图 10）。

在 5 FPS 至 160 FPS 的范围内，GPU V100 上所有 30 FPS 或更高的已知实时物体检测器在精度和速度方面都不及 YOLOv7。它还拥有最高的

56.8 %

平均精度（AP）。最新版本的 YOLO 引入了 "扩展 "和 "复合缩放 "等新技术，有效地利用了参数和计算，在速度和精度方面优于所有现有的实时物体检测器。其首要目标是

是设计一个有效的架构。有效架构的设计必须考虑到模型的计算密度、处理量和几个参数。高效层聚合网络（ELAN）论文认为，通过调节最短和最长梯度路径，深度网络可以有效地学习和收敛。扩展、洗牌和合并 Cardinality 是 YOLO v7 用来扩展 ELAN 的三种技术，并将其更名为扩展高效层聚合网络（Extended- ELAN，或 EELAN），在不改变原始梯度路径的情况下，不断提高网络的学习能力。E- ELAN 只需修改计算模块的架构，而过渡层架构则保持不变。

模型缩放的主要目的是调整模型的某些属性，生成不同规模的模型，以满足不同推理速度的要求。对于基于串联的设计，效能网采用的方法并不合适。当深度向上或向下扩展时，过渡层的内度会随着计算块的变化而变化。对于模型缩放，YOLOv7 提出了一种复合缩放方法，可应用于基于串联的架构，并计算计算块输出通道的变化，以实现深度因子的缩放。因此，建议的缩放程序可以保留原始模型设计和理想结构的特性。

为了研究如何将重新参数化的卷积与各种网络进行整合，YOLOv7 采用了梯度流传播路径。此外，它还使用了浅层网络权重，以辅助损失作为引导，并使用了深度监督，即在网络的中间层添加一个辅助头。YOLOv7 架构中的主导头用于最终输出，而辅助头则用于辅助训练。为了分别为辅助头和主导头学习提供从粗到细的分层标签，YOLOv7 使用主导头预测作为指导。

YOLOv7 的三个基本模型是 YOLOv7、YOLOv7-tiny 和 YOLOv7-W6。YOLOv7-tiny和YOLOv7-W6分别针对边缘GPU和云GPU计算，而YOLOv7基本模型则针对通用GPU计算进行了优化。建议的复合缩放方法用于放大整个模型的深度和宽度，以生成其他变体，如 YOLOv7-X、YOLOv7-E6 和 YOLOv7-D6。

为确保与类似规模的模型（如 YOLOv5x）进行公平比较，我们选择了预先训练好的 YOLOv7-X 模型进行定制训练。在使用 COCO 数据集时，YOLOv7-X 的推理速度比 YOLOv5-X 高出 21 FPS。YOLOv7 还降低了

图 10.Yolov7 的网络架构图包含四个一般模块：输入端、主干、头部和预测，以及五个基本组件：CBS、MP、ELAN、ELAN-H 和 SPPCSPC。[25].

参数数量减少

22 %

，需要的处理量减少

8 %

，平均精度提高

2.2 %

。

6.4.2.分割模型

作为应用最广泛的图像分割技术之一，UNet 在 ISBI-2012 数据集上的表现最佳。它也是一个没有全连接层的 "全卷积神经网络"。其架构由捕捉上下文的收缩路径和实现精确定位的扩展路径组成，从而形成著名的 U 形。在这方面，U-Net 与其他全卷积分割网络的主要区别在于，当我们向上采样并深入网络时，我们会将下部的高分辨率特征与向上采样的特征串联起来，从而实现以下目的

通过以下卷积，可以更好地定位和学习表征。这种架构的设计使其能够用更少的训练数据集产生更好的结果。它还采用了弹性变形等数据增强技术，以更好地利用现有的注释样本。

首先，从零开始创建了一个定制的 UNet 模型，作为比较结果的基础模型。定制模型是在最初的 UNet 论文基础上实现的。但也做了一些修改，如将层过滤器的数量减少到原始论文中的

25 %

。这大大减少了参数数量，但性能并没有下降。定制的 UNet 模型如图 11 所示。

输入和输出 - 还修改了模型的输入和输出形状，以适应定制数据集的要求。

图 11.自定义 UNet 模型。

核磁共振成像和 DaT 扫描图像都被重塑为

128 \times 128

尺寸。由于它们是灰度图像，通道尺寸为 "1"，因此它们被重塑为具有 "3 "个通道的 RGB 图像。因此，该架构接收来自

128 \times 128 \times 3

图像的输入，并输出大小为

128 \times 128 \times 5

的分割图，其通道维度相当于要识别的类别数量。这五个类别包括一个 "背景 "类别和四个不同的类别，分别用于识别 MRI 和 DaT 扫描数据集的左右 SNr 和纹状体。

架构实施 - UNet 的架构分为三个部分。收缩路径（Contracting Path），即降序部分，是第一阶段。它有助于确定图像中对象的上下文，并指定对象所属的类别。第二条路径是扩展路径，有助于定位图像中的对象。它告诉我们对象的位置。最后一个部分是跳过连接，用来保持图像向下采样时丢失的空间信息。

集合模型 - 集合学习是一种通过某种方式组合单个模型来提高其泛化性能的技术。深度集合学习是集合学习的一种特殊类型，它使用深度学习模型作为基础学习器。深度学习模型具有很强的表现力，可以从数据中学习复杂的模式。集合学习可以减少深度学习模型的方差和偏差，使其更加稳健和准确。集合学习的基本思想是使用多个模型进行预测，然后使用某种方法（如平均法或投票法）对它们进行汇总。集合模型有望比集合中的任何单一模型表现得更好。

由于定制的 UNet 模型只有几层深度，下一个合理的步骤是创建一个利用深度卷积神经网络作为编码器的 UNet 模型，以提取良好的语义信息。为了扩展简单的 UNet 模型，我们使用了几个深度卷积神经网络作为骨干。分割模型（https://github. com/qubvel/segmentation_models）库用于部署具有多个骨干网的 UNet 模型。分割模型是一个使用神经网络进行图像分割的 Python 软件包，基于 Keras（Tensorflow）框架构建。它是一个高级 API，包括用于二元和多类分割的四种模型架构，UNet 是其中之一。每个架构包含约 25 个独立的骨干网，每个骨干网都有自己的预训练权重，以便更快、更有效地进行图像分割。
更好地收敛。

本实验选择了 VGG19、EfficientNet-B4 和 ResNet50 等三种不同的骨干网作为特征提取器。分割模型 API 将根据不同的骨干网创建相应的网络编码器和解码器部分。为了进行公平比较，每个模型都使用与自定义 UNet 模型相同的初始化参数进行训练。为每个骨干网初始化的预训练权重是在 2012 ILSVRC ImageNet 数据集上训练的。

模型平均化 - 分类问题的定义是，根据从训练数据集合中学习到的假设

h

对新观察结果进行分类。假设

h

表示输入数据特征与适当目标标签/类别的映射。在学习假设

h

时，主要目标是尽可能接近真实的未知函数，以减少泛化误差。分割任务包括将像素划分到一组固定的类别中。它是分类的一种特例，输入数据是图像，输出是图像中每个像素的标签。

y_{c} = h (x, θ_{c}), y_{c} \in Z

,

其中，

x

是输入特征向量，

y_{c}

是样本的类别

x

，

θ_{c}

是假设的学习参数集

h

，

Z

是类别标签集。

在机器学习中，集合平均是一种将多个模型的预测结果结合起来的技术，其最终输出结果比任何单一模型都更准确、更稳健。进行集合平均的一种方法是给每个模型分配相等的权重，然后取其预测结果的平均值。这也被称为非加权平均法或模型平均法。在预测类别概率的情况下，可以将预测结果计算为每个类别标签的概率总和的 argmax。这种方法的一个局限是，每个模型对集合的最终预测都有相同的贡献。这就要求所有的集合成员都要有比随机概率更高的技能，尽管有些模型的表现要比其他模型好得多或差得多。我们可以将使用各自运行移动平均值的不同模型组合起来，形成一个集合。这种集合简称为平均集合（EoA）。要预测给定输入

x

的类别，EoA 使用以下公式：

\hat{y} = \underset{k}{argmax} Softmax {(\frac{1}{E} \sum_{i = 1}^{E} h (x; {\hat{θ}}_{i}))}_{k}

其中，

E

是集合中模型的总数，

{\hat{θ}}_{i}

表示

i^{th}

移动平均模型的参数，子标题（）

_{k}

表示向量参数中的

k^{th}

元素。

加权集合是集合学习的一种类型，它将多个模型根据其性能组合在一起，并赋予不同的权重。权重是加起来等于 1 的正数，因此它们代表了每个模型的置信度或预期准确度的比例。如果所有模型的权重相同（例如

1 / k

，其中 k 是集合中模型的数量），那么加权集合就等同于简单的平均集合。然而，为每个模型找到最佳权重并不是一件小事，也没有计算公式。估计权重的一种方法是使用训练数据或未用于训练模型的单独验证数据。

使用训练数据来寻找权重可能会导致过度拟合，也就是说，集合在训练数据上表现良好，但在新数据上表现不佳。更好的办法是使用验证数据，以反映集合在实践中会遇到的数据分布。利用验证数据找到权重的一种可行方法是，为每个模型尝试 0 到 1 之间的不同权重组合，然后选择误差最小的组合。另一种可能的方法是使用优化算法，如线性求解器或梯度下降优化算法，该算法可以找到满足单位法约束条件的权重，即权重之和为 1。不过，即使有验证数据，如果验证数据不够大或对真实数据的代表性不够强，加权集合仍有可能出现过拟合。要避免过度拟合，并在不使用显式权重的情况下提高优秀模型的影响力，一个简单的方法就是在集合中复制该模型。这种方法没有使用权重那么灵活，但可以让一个好的模型对集合预测产生更大的影响。如果每个类别的预测结果都是

y_{c}

，那么总体结果

y_{c}

可以定义为：

\hat{y} (x; α) = \sum_{c = 1}^{p} α_{c} y_{c} (x)

其中

α

是一组权重。为集合成员找到最佳权重的方法之一是在网格上尝试不同的值。我们可以使用从 0.0 到 1.0 的值，步长为 0.1，并用这些值创建所有可能的五元素向量。创建所有组合的过程称为笛卡尔乘积。这种方法的缺点是权重向量加起来不会等于所需的 1（称为单位法）。我们可以用每个权重除以权重绝对值之和（称为 L1 法），使每个权重向量都具有单位法。找到最佳权重向量后，我们就可以在测试数据集上评估我们的加权平均集合，它的表现应该优于最佳单一模型，并有望优于模型平均集合。最后，对这些模型的输出进行平均，创建一个集合模型，如图 12 所示。首先使用正常的非加权移动平均值，然后使用加权平均值来确定集合模型的最终输出。为了找到分配给每个模型平均 IoU 的适当权重，我们采用了网格搜索技术，以获得集合模型的最大平均 IoU。

6.5.损失和评估指标

本节将探讨用于衡量检测和分割模型在给定任务中表现的损失和评估指标。本节还将详细讨论选择评价指标的原因。

6.5.1.检测损失和指标

YOLO 模型依赖于特定的损失函数和评估方法

图 12.使用不同骨干网的集合 UNet 模型。

指标来优化其性能和衡量其准确性。在本节中，我们将解释这些组件是如何工作的，以及它们为何适用于 YOLO 模型。YOLO 使用预测值与地面实况之间的总和平方误差来计算损失。损失函数包括

分类损失，利用的是交叉熵损失。
边界框回归或定位损失（预测边界框与地面实况之间的误差），使用平均平方误差。
对象性或置信度损失（方框的对象性），它使用二元交叉熵损失。

定位损失测量的是预测边界框位置和大小的误差。我们只计算负责检测物体的方框。大多数方框都不包含任何物体。这就造成了类不平衡的问题，即我们训练模型检测背景的频率要高于检测物体的频率。为了解决这个问题，我们用系数

λ

noobj（默认值：0.5）来降低这一损失的权重。

从《YOLOv4》开始，您将拥有完全相同的想法，但有了：

对象性和分类分数的二元交叉熵、
在分类概率方面，采用的是 "箱-单元 "级预测，而不是 "单元 "级预测，因此对分类项的惩罚略有不同、
在回归项（ $x, y, w, h$ ）中使用了 CIoU 损失而不是 MSE 损失。CIoU 是 Complete Intersection over Union 的缩写，与 MSE 损失相差不大。它建议对宽度和高度进行更有趣的比较（长宽比之间的一致性），但在边界框中心之间的比较中保留了 MSE。

一般来说，基于 IoU 的损失可定义为

L = 1 - I o U + R (B, B^{g t})

其中

R (B, B^{g t})

是预测框

B

和目标框

B^{g t}

的惩罚项。CIoU loss 边框回归使用三个几何因子。

预测框与地面实况边界框的重叠面积 -I OU 损失
预测框与地面实况边界框之间的中心点 - DIoU 损失
预测方框和地面实况方框的长宽比

CIoU 损失分别是重叠面积、距离和长宽比的集合。由于 CIoU loss 使用的是完整的几何因子，因此收敛速度比 GIoU loss 更快。它能提高物体检测和分割的平均精度（AP）和平均召回率（AR）。那么损失函数可以定义为

L_{CIoU} = 1 - IoU + \frac{ρ^{2} (b, b^{g t})}{c^{2}} + α v

最终损失将定位损失、置信度损失和分类损失加在一起。在这里，CIoU 损失取代了第一项，如下式所示。

\begin{matrix} L (\hat{z}, z) = L_{CloU} \\ - \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} I_{i j}^{o b j} [{\hat{C}}_{i} \log (C_{i}) + (1 - {\hat{C}}_{i}) \log (1 - C_{i})] \\ - λ_{noobj} \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} I_{i j}^{noobj j} [{\hat{C}}_{i} \log (C_{i}) + (1 - {\hat{C}}_{i}) \log (1 - C_{i})] \\ \sum_{i = 0}^{S^{2}} I_{i j}^{o b j} \sum_{c \in classes} [{\hat{p}}_{i} (c) \log (p_{i} (c)) + (1 - {\hat{p}}_{i} (c)) \log (1 - p_{i} (c))] \end{matrix}

精确度、召回率和 F1 分数是评估 YOLO 等检测模型性能的常用指标。之所以使用这些指标，是因为它们可以衡量模型在尽量减少误检测的同时，正确识别图像中物体的能力。精确度是正确预测的阳性结果的百分比。真阳性与真阳性和假阳性之和的比率用于衡量精确度，而真阳性与真阳性加假阴性的比率则用于衡量召回率。在整个训练过程中，我们会对损失函数值以及训练集和验证集的准确率进行监控。我们使用 F1 分数来评估模型的性能。它是精确度和召回率的调和平均值。它同时考虑了假阳性和假阴性。因此，它在不平衡数据集上表现良好。准确率是用于评估分类模型的最基本性能指标。它衡量的是正确预测占模型预测总数的比例。它只用于平衡数据集。

精度

= \frac{T P}{TotalPositiveResults} = \frac{T P}{T P + F P}

回顾

= \frac{T P}{TotalGroundTruthBoxes} = \frac{T P}{T P + F N}

F1 分数

= \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}} = \frac{2 * (Precision * Recall)}{(Precision + Recall)}

精度

= \frac{T P + T N}{T P + T N + F P + F N}

在物体检测中，衡量地面实况与预测之间重叠程度的常用方法是 "交集大于联合"（Intersection over Union，IoU）1。它是两个区域的交集面积与结合面积之比。IoU 值介于 0 和 1 之间，0 表示没有重叠，1 表示完全重叠。然而，IoU 并不是衡量模型准确性的直接指标。它只是一个辅助指标，用于评估地面实况与预测之间的重叠程度。为了评估模型的准确性，我们使用了平均精度（Average Precision，AP）和平均精度（Mean Average Precision，mAP）指标。

I O U = \frac{Area of Intersection of two boxes}{Area of Union of two boxes}

平均精度 (AP) 指标通常用于评估 YOLO、Faster R-CNN、SSD 等物体检测器的精度。对于召回值在 0 和 1 之间的情况，它计算的是平均精度值。顾名思义，它并不是精确度 § 的平均值。简单地说，它是精确度-召回曲线下的面积，按类计算。

2007 年 PASCAL VOC 竞赛采用 11 点插值法计算 AP。精确度值均匀分布在 11 个召回值上。如果 IoU

> 0.5

，则预测结果为正。与大于当前召回值的召回值相对应的最大精确度即为内插法精确度。不过，这种内插方法只是一种估计，有两个缺点。首先，它不够精确。其次，它不允许我们计算 AP 值低的方法之间的差异。因此，2008 年 PASCAL VOC 采用了新的 AP 计算方法。

A P = \frac{1}{11} \sum_{r \in {0, \dots, 1}} A P_{r} = \frac{1}{11} \sum_{r \in {0, \dots, 1}} P_{inter} (r)

where P_{inter} (r) = max_{\tilde{r} \geq r} P (\tilde{r})

在 2010 年至 2012 年期间举行的帕斯卡尔 VOC 竞赛中，每当最高精确度值在任何一个召回值上下降时，就会对曲线进行采样。调整后，将计算出精确度-召回率曲线下的面积。不需要近似或内插。与其对 11 个插值点进行采样，我们可以在精度降低时对每个

p (r_{i})

进行采样，然后将 AP 计算为矩形块的总和。这就是所谓的曲线下面积 (AUC)。

A P = \sum (r_{n + 1} - r_{n}) P_{inter} (r_{n + 1})

,
其中

_{inter} (r_{n + 1}) = max_{\tilde{r} > r_{n + 1}} P (\tilde{r})

直到最近，PASCAL VOC 测量一直是行业标准。然而，随着时间的推移，这些模型开始趋于饱和。据观察，即使是具有可比结果的模型，其性能也不尽相同。因此，MS COCO 于 2014 年发布了 101 点插值 AP。它对 P-R 曲线下的 AUC 进行了更精确的估算。

平均精度 (mAP) 是所有检测到的类别的平均精度。COCO 数据集的 mAP 是根据一组十个不同的 IoU 阈值计算和平均的。它的步频为 0.05，范围为 0.5 至 0.95。我们必须记住，MS COCO 将平均精度 (AP) 定义为 mAP@[0.5:0.05:0.95]。这里 AP 和 mAP 可互换使用。在 0.5 的 IoU（Intersection over Union）阈值下的平均精度 (mAP) 表示为 "mAP:0.5"。mAP 0.5:0.95 "表示从 0.5 到 0.95 的多个 IoU 阈值的平均 mAP。选择这一指标是为了评估 YOLOv5 和 YOLOv7 模型在自定义数据集上的性能。

6.5.2.分割损失和指标

像素精度的概念可能是最容易理解的。它是

图像中被正确分类的像素百分比。虽然这很容易理解，但并不是理想的衡量标准。在医疗行业中，背景像素占研究图像中像素的大部分，只有少数像素属于感兴趣的对象。这就是所谓的类不平衡。当类别非常不平衡时，表明一个或多个类别在图像中占主导地位，而其他类别只占一小部分。因此，准确率不能用来评估网络性能，因为即使前景像素被错误分类，只要模型能预测背景像素，就会产生积极的结果。用于训练语义分割神经网络的常用损失函数包括分类交叉熵、焦点、IoU 和骰子损失。

交叉熵损失历来被应用于分类问题。它计算输出的对数值，并将所有概率估计的熵相加。交叉熵有两种：二元交叉熵和分类交叉熵。二元交叉熵也称为 sigmoid 交叉熵损失。它由交叉熵损失和 Sigmoid 激活组成。由于它适用于两个类别，因此被称为二元交叉熵损失。分类交叉熵也被称为 Softmax 损失。它包括 Softmax 激活和交叉熵损失。它用于多类分类。当存在类别不平衡时，交叉熵损失的表现较差，这在分割任务中尤为明显。当模型对预测多数类更有信心时，就会更新权重，而对少数类的重视程度则会降低，因为多数类的例子会主导损失函数和梯度下降。这个问题可以通过使用加权或平衡交叉熵来解决。

L_{cross-entropy} = - \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 1}^{C} y_{t}^{(i)} \log (f (x_{t}^{(i)}))

L_{cross-entropy}^{ω} = - \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 1}^{C} ω_{t} y_{t}^{(i)} \log (f (x_{t}^{(i)}))

等式 (5) 和 (6) 显示了加权分类交叉熵与非加权分类交叉熵的区别。其中，

x_{t}^{(i)}

和

y_{t}^{(i)}

是输入特征和标签，

f (x_{t}^{(i)})

是模型的输出。此外，N 表示训练实例的总数，而 C 表示类别数。变量

ω_{t}

是为每个类别计算的权重，以获得平衡的损失。虽然加权交叉熵解决了类不平衡问题，但它无法区分难例和易例。易分类实例是指那些容易分类的实例，而难分类实例是指那些模型总是分类错误的实例。因此，交叉熵损失无法对困难实例给予更多关注。

Focal Loss 是 Facebook 在 RetinaNet 中引入的。它为不平衡数据集问题提供了更有效的补救措施。它引入了一个新术语，以减少正确预测的影响，并关注错误示例。论文指出，如果模型之前对某个样本进行了正确分类，那么该样本对损失的贡献就会减少。他们认为，这种方法通过使损失间接集中在有问题的类别上，解决了类别不平衡的问题。这是通过一种被称为 "降低权重 "的方法实现的。下调权重是一种通过减少简单示例对损失函数的影响来更加强调困难示例的方法。伽马超参数描述了这种降低的强度。

L_{focal-loss}^{ω} = - \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 1}^{C} ω_{t} {(1 - f (x_{t}^{(i)}))}^{γ} y_{t}^{(i)} \log (f (x_{t}^{(i)}))

其中，

{(1 - f (x_{t}^{(i)}))}^{γ}

是新增加的项，当聚焦参数

γ >= 0

时，它作为一个调节因子，可以减少正确分类样本对损失的影响。如果

γ = 0

，焦点损失与交叉熵损失相同。这种损失更可取，因为它会影响网络在不平衡数据集上的训练方式，并能

增强细分结果。

交集-重叠-联合（IoU），通常称为 Jaccard 指数，是语义分割中的一个常用指标。它的计算方法是用预测分割与基本真实之间的联合除以两者之间的重叠面积。它也可以定义为真阳性与真阳性、假阴性和假阳性之和的比率。从 1 减去 IoU 分数，即可得出 IoU 损失。

I o U_{score} = \frac{Intersection}{Union} = \frac{T P}{T P + F P + F N} = \frac{| T^{*} P |}{| T + P - (T^{*} P) |}

I o U_{loss} = 1 - I o U_{score}

其中，TP 代表真阳性，FP 代表假阳性，FN 代表假阴性。标签"

T

"和 "P "代表基本真实值和预测值。骰子系数又称 F1 分数，与 IoU 分数类似。它等于重叠面积除以图像像素总数的两倍。它计算两次交叉或真阳性（TP）。它可以从 F1 分数的公式中推导出来。它是精确度和召回率之间的调和平均值。虽然骰子系数很直观，但并不适合用于训练。这是因为它只接受离散值（如 0 和 1）。模型会为每个像素生成概率，而我们希望能够通过这些概率进行反向传播。因此，我们需要一个能接受实值输入的骰子损失等价物。这就是软骰子损失（Soft Dice loss）的由来。从 1 中减去骰子系数后，即可得到骰子损失。

骰子

_{Coefficient} = \frac{2 \times Intersection}{Union + Intersection} = \frac{2 \times T P}{2 \times T P + F P + F N}

= \frac{1}{C} \sum_{c = 1}^{C} \frac{2 \times \sum_{i j} p_{c i j} q_{c i j} + ε}{(\sum_{i j} p_{c i j}^{2}) + (\sum_{i j} q_{c i j}^{2}) + ε}

L_{Dice} = 1 -

骰子

_{Coefficient} = 1 - \frac{1}{C} \sum_{c = 1}^{C} \frac{2 \times \sum_{i j} p_{c i j} q_{c i j} + ε}{(\sum_{i j} p_{c i j}^{2}) + (\sum_{i j} q_{c i j}^{2}) + ε}

其中，p 是我们的预测值，q 是地面实况，C 是类别数，

ϵ

是为避免除以零而添加的一个小数。

用于评估语义生成模型性能的指标包括平均交叉值（MeanIoU）和 F1 分数（Dice Coefficient）。平均交叉-过联合（IoU）和骰子系数是评估分割模型性能的常用指标。使用这些指标是因为它们能有效地处理类不平衡问题，而类不平衡是许多真实世界数据集中的常见问题。

在分割任务中，Dice 损失被用作损失函数，因为它是可微分的，而 IoU 是不可微分的。两者都可用作评估我们模型性能的指标，但作为损失函数，只使用骰子系数/损失。最后，本实验使用了焦点损失和骰子损失的组合作为损失来衡量分割模型的性能。

L_{total} = L_{focal-loss}^{ω} + L_{Dice}

7.实验

7.1.训练检测模型

YOLO 标签格式--大多数提供 YOLO 标签格式输出的注释平台都会为每张图像提供一个包含注释的文本文件。为了给检测模型的自定义数据集添加注释，我们使用了 labelMe 注释工具。对于图像中的每个对象，每个文本文件中都包含一个边界框注释。注释按图像大小缩放，范围从 0 到 1。注释的书写方式如下：

<

object-class-ID> .

数据目录结构 - 按照 Ultralytics 的目录结构（见图 S1），数据按以下结构提供。

配置文件 - 训练配置分为三个 YAML 文件，随软件包一起提供。数据集参数在数据配置文件中进行了描述。我们更新了这些文件，使其包含以下信息：训练、验证和测试（可选）数据集的路径；类的数量 (nc)；以及按索引顺序排列的类名。

核磁共振成像数据有两个类别，即 "健康纹状体 "和 "非健康纹状体"。DaT 扫描数据集也被标记为 "健康纹状体 "和 "不健康纹状体"。我们将 MRI 的自定义数据配置文件命名为 "mri_data.yaml"，将 DaT 扫描的自定义数据配置文件命名为 "datscan_data.yaml"，并将其放在 yolov5 和 yolov7 文件夹的 "data "目录下。模型架构在模型配置文件中指定。模型 "目录包含上述每种架构的模型配置文件。在我们的自定义数据中，我们更改了类数（nc）参数，以反映正确的类数。超参数配置文件中定义了训练的学习率、动量、损失、增强和其他超参数。大型模型的默认超参数文件位于 "data/hyp/hyp.scratchhigh.yaml "目录下。为了建立性能基线，通常最好使用默认超参数开始训练。YAML 配置文件位于图 S2 所示的目录中。

训练 - 模型在 NVIDIA GeForce GTX 1080 和 Intel® Core™ i5-8400 CPU 上进行训练。两个模型的输入大小均为 640。随机梯度下降（SGD）是 YOLO v5 中用于训练的默认优化函数，但可以通过使用"- - adam "命令行参数将其更改为 Adam。由于内存限制，两个模型的批量大小均为 10。

7.2.训练分割模型

标注--首先使用 VIA 工具对分割任务进行标注。从该工具导出的标注数据是 JSON（Javascript Object Notation）格式。然后，使用 python 代码将标注数据转换为 NumPy 数组，并写入图像文件，为训练数据和验证数据创建地面真实分割掩码。然后将它们分别置于 "train_mask "和 "val_mask "下。转换后，MRI 和 DaT 扫描数据的目录结构如图 S3 所示。

修改 - 部分修改包括用批量归一化取代原始 UNet 中的剔除层，以减少过拟合问题。使用开明初始化或 He 初始化来初始化每一层的权重，而不是原始 UNet 中使用的 Xavier 初始化。

8.成果

8.1.检测结果

对检测模型进行了训练，以分别从核磁共振成像和 DaT 扫描图像中识别黑质下和纹状体区域，并预测患者是否健康。表 5

显示了 YOLOv5 和 YOLOv7 模型经过 100 次训练后的检测结果。用于评估检测边界框的指标包括精确度、召回率、

50 % mAP

和

50 % : 95 %

mAP。在检测方面，YOLOv7 的表现略胜一筹。当我们使用两种模型比较 DaT 扫描图像的 mAP_0.5:0.95 时，YOLOv5x 模型的 mAP_0.5:0.95 为

69.5 %

，而 YOLOv7x 模型的 mAP_0.5:0.95 为

70.39 %

。同样，在比较 MRI 图像的 mAP_0.5:0.95 时，YOLOv5x 模型给出的 mAP_0.5:0.95 为

63.2 %

，而 YOLOv7x 模型给出的 mAP_0.5:0.95 为

64.16 %

。这表明，在这两种情况下，YOLOv7x 模型的性能都比前一模型略有提高。我们还可以观察到，预测 DaT 扫描图像边界框的 mAP 要大于 MRI 图像，因为 SN 区域的检测难度略高于纹状体。图 S4 显示了 YOLOv5x 和 YOLOv7x 使用 DaT 扫描图像和 MRI 图像进行训练和验证的结果。

8.2.分类结果

除了预测边界框之外，还使用混淆矩阵计算了每个类别的预测得分。图 S5 显示了两种模型使用 DaT 扫描图像的预测得分。YOLOv5x对健康患者的分类准确率为

97 %

，对帕金森病患者的分类准确率为

95 %

。而 YOLOv7x 对健康患者的分类准确率为

95 %

，对帕金森病患者的分类准确率为

96 %

。图 S6 显示了这两种模型使用核磁共振图像的预测得分。YOLOv5x 对健康患者的分类准确率为

90 %

，对帕金森病患者的分类准确率为

83 %

。而 YOLOv7x 对健康患者的分类准确率为

98 %

，对帕金森病患者的分类准确率为

87 %

。两种模型的分类得分比较接近。(见表 6）总体而言，DaT 扫描图像分类的预测得分高于 MRI 图像分类的预测得分。图 13 显示了核磁共振成像和 DaT 扫描图像对健康人和帕金森病人的边界框预测和置信度得分。

8.3.分割结果

平均 IOU 指标用于衡量定制 UNET 和以 ResNet50、EfficientNetB4 和 VGG19 为骨干的 UNet 模型的性能。所有模型均采用 0.001 的学习率进行 100 次训练。由于自定义 UNet 模型相对较小，因此在训练过程中使用了亚当优化器，批量大小为 64。由于内存限制，在使用不同骨干对 UNet 模型进行训练时，使用的批量大小为 32。

表 7 列出了使用 DaT 扫描图像时每个类别的 IoU 分数和平均 IoU 分数。从表中可以看出，自定义 UNet 模型的 IOU 平均值为

65.06 %

；使用 VGG-19 作为骨干的 UNet 的 IOU 平均值为

67.70 %

；使用 ResNet 50 作为骨干的 UNet 的 IOU 平均值为 68.86 %；使用 EfficientNet B4 作为骨干的 UNet 的 IOU 平均值为

69.31 %

。相比之下，使用 EfficientB4 的 UNet 优于其他模型。虽然自定义 UNet 模型的结果略低，但与其他模型相比，它的参数要少得多。表 8 列出了使用 DaT 扫描图像对模型进行 100 次训练后的训练和验证结果。

表 9 列出了每个类别的 IoU 分数以及使用磁共振成像时的平均 IoU 分数。从表中我们可以看出，自定义 UNet 模型的 IOU 平均值为

47.66 %

；使用 MRI 图像的 UNet 模型的 IOU 平均值为

47.66 %

。

表 5

Yolov5 和 Yolov7 模型对 DaT 扫描和核磁共振成像的检测结果。

模型	数据集	精度	回顾	F1	mAP_0.5	mAP_0.5:0.95	纪元
YOLOv5x	DaT 扫描	0.9321	0.9595	0.9456	0.9722	0.6951	100
YOLOv7x	DaT 扫描	0.9394	0.9808	0.9596	0.9814	0.7039	100
YOLOv5x	MRI	0.8992	0.8948	0.8969	0.9107	0.6322	100
YOLOv7x	MRI	0.9205	0.9225	0.9214	0.9387	0.6416	100

表 6

使用 DaT 扫描和核磁共振成像的 YOLOv5x 和 YOLOv7x 模型的预测得分。

模型	数据集	TP	TN	FP	FN	精度	回顾	特异性	准确性
YOLOv5x	DaT 扫描	0.97	0.95	0.05	0.03	0.95	0.97	0.95	0.96
YOLOv7x	DaT 扫描	0.95	0.96	0.04	0.05	0.96	0.95	0.96	0.95
YOLOv5x	MRI	0.9	0.83	0.17	0.09	0.84	0.90	0.83	0.87
YOLOv7x	MRI	0.98	0.87	0.12	0.02	0.89	0.98	0.88	0.93

图 13.核磁共振成像和 DaT 扫描图像的预测样本。

表 7

使用 DaT 扫描图像的各等级平均 IoU 和 IoU 分数。

模型	欠条 $_{bg}$	欠条 $_{hlst}$	欠条 $_{hrst}$	欠条 $_{ulst}$	欠条 $_{urst}$	欠条 $_{mean}$
自定义 UNet	0.9933	0.5233	0.6341	0.5645	0.6393	0.6506
VGG-19	0.9930	0.5636	0.6577	0.5909	0.6797	0.6770
ResNet 50	0.9936	0.5665	0.6608	0.6120	0.6992	0.6866
EfficientNetB4	0.9942	0.5727	0.6742	0.6291	0.7070	0.6931

健康右侧纹状体：IOU

_{ulst:}

不健康左侧纹状体的 IoU；IOU urst : 不健康右侧纹状体的 IoU；IOU

_{mean}

: 平均 IoU。

表 8

所有模型使用 DaT 扫描图像的训练和验证结果。

模型	火车 $_{loss}$	火车 $_{IOU}$	火车 $_{dice}$	值 $_{loss}$	值 $_{IOU}$	值 $_{dice}$
自定义 UNet	0.3425	0.6671	0.7390	0.4246	0.4976	0.5832
VGG-19	0.1240	0.7998	0.8828	0.4556	0.5034	0.5655
ResNet 50	0.0866	0.8594	0.9214	0.4414	0.5754	0.6382
EfficientNetB4	0.0885	0.8566	0.9195	0.4333	0.5609	0.6262

{train}_{loss} :

训练总损失；

{train}_{IOU}

：训练 IoU 分数； train

_{dice:}

训练骰子系数： val

_{loss}

:验证总损失； val

_{IOU}

：验证 IoU 分数； val dice：验证骰子系数。

以 VGG-19 为骨干网的 UNet 为 51.90%；以 ResNet 50 为骨干网的 UNet 为 52.91%；以 EfficientNet B4 为骨干网的 UNet 为

52.73 %

。相比之下，以 ResNet 为骨干网的 UNet 略胜一筹。由于与 DaT 扫描图像的感兴趣区域相比，核磁共振成像上的分割区域非常小，因此我们可以看到 IOUmean 的结果较低。表 10 列出了使用核磁共振图像对模型进行 100 次训练后的训练和验证结果。图 S7 显示了所有模型使用 DaT 扫描和 MRI 图像进行训练和验证的结果。

最后，计算每个模型的 IOUmean 的加权平均值，找出集合的 IOUmean。在使用 DaTScan 图像的网格搜索算法寻找合适的权重后，ResNet-50 的输出被分配了 0.1 的权重，EfficientNetB4 被分配了 0.3 的权重，VGG-19 被分配了 0.2 的权重。考虑这些权重后，集合的最高 IOUmean 值为

70.02 %

。对于 MRI 图像，每个模型的权重为 0.1 是合适的。应用这些权重后，发现集合的最高 IOUmean 值为 54.31%。图 14 和图 15 显示了集合模型对给定测试 DaT 扫描和 MRI 图像的预测结果。

表 9

使用核磁共振成像的各等级平均 IoU 和 IoU 分数。

模型	欠条 $_{bg}$	欠条 $_{hlsn}$	欠条 $_{hrsn}$	欠条 $_{ulsn}$	欠条 $_{ursn}$	欠条 $_{mean}$
自定义 UNet	0.9986	0.2958	0.3565	0.3735	0.4765	0.4766
VGG-19	0.9990	0.3596	0.4091	0.4043	0.5977	0.5190
ResNet 50	0.9988	0.3579	0.4405	0.4121	0.5514	0.5291
EfficientNetB4	0.9988	0.3591	0.4037	0.4223	0.5525	0.5273

{IOU}_{bg} :

背景的 IoU；

{IOU}_{hlst}

：健康左侧纹状体的 IoU；

{IOU}_{hrst:}

：健康右侧纹状体的 IoU： IOU ulst：不健康左侧纹状体的 IoU； IOU ulst：不健康右侧纹状体的 IoU；IOU mean：平均 IoU。

表 10

所有模型使用核磁共振成像的训练和验证结果。

模型	火车 $_{loss}$	火车 $_{IOU}$	火车 $_{dice}$	值 $_{loss}$	值 $_{IOU}$	值 $_{dice}$
自定义 UNet	0.3743	0.6086	0.6896	0.5280	0.4219	0.5054
VGG-19	0.0009	0.8869	0.9388	0.0086	0.4889	0.5684
ResNet 50	0.1193	0.8060	0.8843	0.5231	0.5013	0.5711
EfficientNetB4	0.1381	0.7819	0.8672	0.5082	0.5096	0.5854

train

_{loss:}

训练总损失； train

_{IOU}

训练 IoU 分数； train dice 训练骰子系数： val

_{loss:}

验证总损失； val

_{IOU}

:验证 IoU 分数； val

_{dice}

:验证骰子系数。

8.4.与现有方法的比较

以往有关帕金森病诊断的研究主要集中在预先选定的特定感兴趣区（ROI）上。然而，我们的方法可以自动检测和分割与帕金森病诊断最相关的 ROI，我们的研究结果也证明了这一点。我们将我们的方法与其他在 PPMI 数据集上使用分类技术的最先进模型进行了比较，结果表明我们的方法具有相似的准确性。然而，分类技术有一些局限性，如信息丢失和分割误差，这些都会影响其性能。为了克服这些局限性，我们采用了全脑图像处理作为替代方法，这种方法可以保留空间结构和基本细节，而无需依赖手工创建的特征。然而，这种方法也有缺点，因为它考虑了与帕金森病诊断无关的大脑其他区域。因此，我们建议使用能避免这一问题的检测和分割模型，并专注于对帕金森病诊断最有参考价值的 ROI。表 11 显示了我们的模型的量化性能，它在识别类别和 ROI 方面优于最先进的模型。我们还使用了更多的研究

图 14.集合模型对测试 DaT 扫描图像的预测。

图 15.集合模型对磁共振成像测试图像的预测。

与之前的方法相比，我们的研究对象更多，这增加了我们研究结果的普遍性。在分割方面，我们的方法取得了很好的效果，但我们无法将其与其他方法进行比较，因为它们使用的成像模式和 ROI 与我们的方法不同。总之，我们的方法似乎是一种更好的技术，可以生成接近地面实况的分割图像。

9.讨论

许多研究利用PPMI和IXI数据集研究了从MR和DaT扫描图像诊断PD的机器学习方法。然而，现有方法的准确率仅为 40-87%，而我们提出的方法则高达

97 %

。这表明，检测模型比其他相关方法更有效，而且以前从未被用于 PD 诊断。我们还表明，磁共振成像数据的深度学习可以改善疾病进展的评估

并提供了一种低成本的方法，有可能增加那些可能在短时间内病情恶化的人参与临床试验的机会。在分割方面，许多现有模型表现不佳。最难分割的区域是 MRI 图像中的 SNr 区域，因为它们太小而无法检测。但我们的集合方法提高了定制 UNet 模型的性能。在识别 DaT 扫描图像中的 ROI 方面也取得了可喜的成果。彩色编码的 ROI 可以帮助医生专注于相关区域进行诊断，还可以通过直观比较这些区域的神经元退化情况来跟踪疾病的进展。

10.软件

在对检测和分割模型进行训练，以便通过对患者进行相应的分类，从核磁共振成像和 DaT 扫描图像中识别出感兴趣的区域后，再根据这些模型的性能选择最佳模型。

表 11

现有识别帕金森病的策略与我们的方法的比较。

作者

受试者人数

选定脑区

数据说明

采用的方法

准确度（%）

吉尔等人，2009 年

PD = 28, NC = 28

选定的 ROI

MR 图像

CNN

80.2

Focke 等人，2011 年

北卡罗来纳州 PD 20

= 20

选定的 ROI

MR 图像、DT 图像

SVM

41.86

巴布等人，2014 年

PD 28，NC = 28

选定的 ROI

SPECT 图像

VBM.RFE

81.21

萨尔瓦多等人，2014 年

PD = 25, NC = 25

选定的 ROI

MR 图像

PCA.SVM

83.2

拉纳等人，2015 年

PD = 28, NC = 28

WM、GM 和 CSF

MR 图像

SVM

86.67

Adeli 等人，2016 年

PD = 274, NC = 170

选定的 ROI

MR 图像

联合特征样本选择

81.9

阿波斯等人，2017 年

PD = 28, NC = 40

基于核磁共振成像的黑质图谱

MR 图像、DT 图像

SVM

[1]

PD = 274, NC = 170

选定的 ROI

MR 图像

ANN

辛德等人，2019 年

PD = 248, NC = 204

选定的 ROI

MR 图像

CNN + SVM

Cigdem 等人，2018 年

PD = 40, NC = 40

全脑图像

MR 图像

PCA + CNN

84.25

西瓦兰吉尼等人，2019 年

PD 82，NC = 100

全脑图像

MR 图像

转学 Le-Net

86.9

Sukhpal 等人，2020 年

PD = 67, NC = 85

全脑图像

MR 图像

Transfer learned Alex-Net + 数据增强

89.23

建议的方法

PD = 450, NC = 450

选定的 ROI

MR 图像、DAT-SCAN 图像

YOLO》，联合国网络合奏团

\begin{aligned} DAT & = 97 \\ MRI & = 93 \end{aligned}

性能。由于 YOLOv7x 和带有 EfficientNetB4 主干网的 UNet 的结果最好，因此被选中。然后冻结模型，并将 UNet 文件导出为".hdf5 "文件，将 YOLOv7x 权重文件导出为".onnx "格式。训练好的权重通过 OpenCV (https://opencv.org/) 和 PyQt5 (https://pypi.org/project/PyQt5/) 框架用于构建帕金森病检测软件 (PDDS) 的用户界面。使用 OpenCV 将 UNET 和 YOLO 的预测结果合并在一起，以显示检测和分割结果。

10.1.用户界面

PDDS 软件的用户界面包含以下组件：

欢迎页面 - 首先，用户将进入欢迎页面。在这里，用户可以选择创建新账户或登录系统。(见图 S8）
用户注册页面 - 输入用户名和密码后，用户可在此页面创建新账户。用户的个人信息将存储在数据库中。数据库将使用 sqlite 框架建立。用户密码在保存到数据库之前将使用 python bcrypt 框架进行加密。这将有助于保护用户密码，即使入侵者设法访问数据库，也不会泄露用户密码。(见图 S9）
用户登录页面 - 创建新账户后，用户可输入用户名和密码，以进入软件主界面。(见图 S10）
核磁共振成像页面--主界面的第一部分允许用户从本地目录上传核磁共振成像图像并获得预测结果。(见图 S11）
DaT 扫描页面 - 主界面的第二部分允许用户从本地目录上传 DaT 扫描图像并获取预测结果。(见图 S12）
调整亮度页面 - 主界面的第三部分允许用户从本地目录上传 DaT 扫描或 MRI 图像，并调整图像的亮度和平滑度。(见图 S13）
将 DICOM 转换为 PNG 页面--主界面的第四部分允许用户将 DICOM 文件转换为 PNG 格式。用户可以从本地目录上传 DICOM 文件并将其转换为 PNG 格式，然后保存在自己选择的文件夹中。(见图 S14）
关于页面 - 主界面的最后一部分只是简要介绍软件。(见图 S15）

11.结论

帕金森病是仅次于阿尔茨海默病的第二大神经系统疾病。目前还没有治疗帕金森病的方法，尽管早期发现帕金森病可以帮助患者获得更好、更有效的治疗。本文探讨了早期诊断帕金森病的困难。事实证明，由于缺乏早期干预，患者无法及时接受适当的治疗措施。为了评估几种成像生物标志物在诊断和监测帕金森病发展方面的有效性，我们对它们在帕金森病诊断中的应用进行了批判性分析。此外，该研究还对长期以来使用的各种机器学习和深度学习算法进行了比较，以便使用核磁共振成像和 DaT 扫描图像自动诊断帕金森病（PD）。尽管深度学习模型在诊断患者方面具有相对较高的准确性，但由于缺乏数据而导致过度拟合，无法适应现实世界。

在这项研究中，我们开发了一个框架，用于识别和分割感兴趣区域（ROIs），如黑质和黑体。

纹状体分别来自健康人和帕金森病患者的 T2 加权 MRI 和 DaTScan 图像。我们还利用马赛克数据增强技术，让模型接触到各种情境下的项目，从而增强了模型的泛化能力。我们利用 PPMI 和 IXI 数据集对所提出的框架进行了训练和验证，并展示了其功效。根据检测结果，YOLOv7x 模型优于早期的技术，DaTScan 图像的 mAP_0.5:0.95 值达到 70.39%，MRI 图像的 mAP_0.5:0.95 值达到 64.16%。在分割结果方面，我们具有不同骨干的集合 UNet 模型在 DaTScan 图像和 MRI 图像上分别实现了

70.02 %

的平均 IOU 值和 54.31 % 的平均 IOU 值。随后，该模型被用于制作可视化核磁共振成像和 DaT 扫描图像中感兴趣区域的软件。虽然结果令人鼓舞，但还需要进行更多研究，利用不同医院的数据进一步增强模型。尽管我们在早期帕金森病诊断方面取得了长足进步，但在利用众多生物标志物进行准确预测和创建不易受上述问题影响的模型方面仍有许多工作要做。

代码可用性

支持本研究结果的代码将提供给非商业性学术机构使用。

因此需要签订正式的代码使用协议。

请联系 ted.meg1234@mail.nwpu.edu.cn 以获取访问权限。

CRediT 作者贡献声明

Tewodros Megabiaw Tassew：构思、数据整理、方法论、调查、软件、写作--原稿、写作审阅与编辑。聂璇：监督、项目管理。柴博松数据整理、调查、验证。

竞争利益声明

作者声明，他们没有任何可能会影响本文所报告工作的已知经济利益或个人关系。

数据可用性

我已在 "数据可用性 "部分分享了该数据集的链接。

致谢

我们要感谢西北工业大学帮助我们开展这方面的研究，并与医院建立合作关系，以便更好地了解这种疾病。这项研究没有得到任何资助。

附录 A.补充材料

本文的补充数据可在https://doi. org/10.1016/j.bspc.2023.105140 在线查阅。

参考资料

[1] N. Amoroso、M. La Rocca、A. Monaco、R. Bellotti、S. Tangaro，《复杂网络揭示帕金森病的早期 MRI 标记》，Med.Image Anal.48 (2018) 12-24.

[2] A. Antonini、K.L. Leenders、D. Meier、W.H. Oertel、P. Boesiger、M. Anliker，帕金森病患者的 T2 松弛时间，神经病学 43 (4) (1993) 697。

[3] Y.J. Bae、J.M. Kim、C.H. Sohn、J.H. Choi、B.S. Choi、Y.S. Song、J.H. Kim，帕金森病和其他帕金森综合征的黑质成像，放射学 300 (2) (2021) 260-278。

[4] N. Bajaj，R.A. Hauser，I.D. Grachev，使用（123I）碘氟烷的多巴胺转运体单光子发射 CT（DaT-SPECT）在帕金森综合征诊断中的临床实用性，Neurosurg.Psychiatry 84 (11) (2013) 1288-1295。

[5] M. Bakator、D. Radosav，《深度学习与医学诊断》：文献综述，Multimodal Technol.Interact.2 (3) (2018) 47.

[6] T.C. Booth、M. Nathan、A.D. Waldman、A.M. Quigley、A.H. Schapira、J. Buscombe，功能性多巴胺转运体 SPECT 成像在帕金森综合征中的作用，第一部分，Am.J. Neuroradiol.36 (2) (2015) 229-235

[7] B.H. Braffman、R.I. Grossman、H.I. Goldberg、M.B. Stern、H.I. Hurtig、D.B. Hackney、R.A. Zimmerman，使用自旋回波和梯度回波序列的帕金森病 MR 成像，Am.J. Roentgenol.152 (1) (1989) 159-165.

[8] S.F. Calloni、G. Conte、S. Sbaraini、R. Cilia、V.E. Contarino、S. Avignone、E. Scola 3 特斯拉下帕金森病的多参数 MR 成像：在区分特发性帕金森病和非典型帕金森病中的作用，Eur.J. Radiol.109 (2018) 95-100.

[9] G. Castellanos, M.A. Fernández-Seara, O. Lorenzo-Betancor, S. Ortega-Cubero, M. Puigvert, J. Uranga, M.A. Pastor, Automated Neuromelanin Imaging as a Diagnostic Biomarker for Parkinson's Disease, Mov.Disord.30 (7) (2015) 945-952.

[10] S. Chakraborty、S. Aich、H.C. Kim，使用三维卷积神经网络从 3T T1 加权磁共振成像扫描中检测帕金森病，《诊断学》10 (6) (2020) 402。

[11] H.L. Chen, C.C. Huang, X.G. Yu, X. Xu, X. Sun, G. Wang, S.J. Wang, An efficient diagnosis system for detection of Parkinson's disease using fuzzy k-nearest neighbor approach, Expert Syst.40 (2013) 263-271.

[12] H.C. Cheng，C.M. Ulane，R.E. Burke，帕金森病的临床进展与轴突的神经生物学，Ann. Neurol.Neurol.67 (6) (2010) 715-725.

[13] Z. Cheng, N. He, P. Huang, Y. Li, R. Tang, S.K. Sethi, E.M. Haacke, Imaging the Nigrosome 1 in the substantia nigra using susceptibility weighted imaging and quantitative susceptibility mapping. An application to the Parkinson disease, NeuroImage: PDT：应用于帕金森病，NeuroImage：临床 25 (2020) 102103。

[14] R. De La Fuente-Fernández，DaTSCAN 和临床诊断在帕金森病中的作用，神经病学 78 (10) (2012) 696-701。

[15] B.G. Drayer、P. Burger、R. Darwin、S. Riederer、R. Herfkens、G.A. Johnson，脑铁的 MRI，Am.J. Roentgenol.147 (1) (1986) 103-110.

[16] B.P. Drayer，Imaging of the aging brain.第二部分。病理条件，放射学 166 (3) (1988) 797-806。

[17] J.R. Duguid、R. De La Paz、J. Degroot，帕金森病中脑的磁共振成像，Ann.Neurol.20 (6) (1986) 744-747.

[18] P. Feraco, C. Gagliardo, G. La Tona, E. Bruno, C. Marrale, R. Monastero, Imaging of Substantia Nigra in Parkinson's Disease: A Narrative Review, Brain Sci.11 (6) (2021) 769.

[19] X. Guan, X. Xu, M. Zhang, Region-specific iron measured by MRI as a biomarker for Parkinson's disease, Neurosci.Bull.33 (5) (2017) 561-567.

[20] B. Heim, F. Krismer, R. De Marzi, K. Seppi, Magnetic resonance imaging for the diagnosis of Parkinson's disease, J. Neural Transm.124 (8) (2017) 915-964.
[21] A.J. Hughes, S.E. Daniel, Y. Ben-Shlomo, A.J. Lees, The accuracy of diagnosis of parkinsonian syndromes in a specialist movement disorder service, Brain 125 (4) (2002) 861-870.

[22] J.R. Isaacson, S. Brillman, N. Chhabria, S.H. Isaacson, Impact of DaTscan Imaging on Clinical Decision Making in Clinically Uncertain Parkinson's Disease, J. Parkinsons Dis.(2021) 1-5.

[23] S.L. James, D. Abate, K.H. Abate, S.M. Abay, C. Abbafati, N. Abbasi, A.M. Briggs, Global, regional, and national incidence, prevalence, and years living with disability for 354 diseases and injuries for 195 countries and territories, 1990-2017: a systematic analysis for the Global Burden of Disease Study, Lancet 392 (2017) 1789-1858.

[24] D. Jennings, A. Siderowf, M. Stern, J. Seibyl, S. Eberly, D. Oakes, Conversion to Parkinson disease in the PARS hyposmic and dopamine transporter-deficit prodromal cohort, JAMA Neurol.74 (8) (2017) 933-940.
[25] K. Jiang, T. Xie, R. Yan, X. Wen, D. Li, H. Jiang, J. Wang, An Attention MechanismImproved YOLOv7 Object Detection Algorithm for Hemp Duck Count Estimation, Agriculture 12 (10) (2022) 1659.

[26] G. Kaegi、K.P. Bhatia、E. Tolosa，DAT-SPECT 在运动障碍中的作用，《神经外科。精神病学 81 (1) (2010) 5-12。

[27] L.V. Kalia, A.E. Lang, 帕金森病，Lancet 386 (9996) (2015) 896-912。

[28] S. Kaur, H. Aggarwal, R. Rani, Diagnosis of Parkinson's disease using deep CNN with transfer learning and data augmentation, Multimed.80 (7) (2021) 10113-10139.
[29] A. Le Berre, K. Kamagata, Y. Otsuka, et al., Convolutional neural network-based segmentation can help in assessing the substantia nigra in neuromelanin MRI, Neuroradiology 61 (2019) 1387-1395, https://doi.org/10.1007/s00234-019-02279-w.

[30] T. Li，W. Le，《帕金森病的生物标志物：它们有多好》，Neurosci.Bull.36 (2020) 183-194.

[31] S. Lotankar、K.S. Prabhavalkar、L.K. Bhatt，《帕金森病的生物标志物：最新进展》，Neurosci.Bull.33 (5) (2017) 585-597.

[32] A.S. Lundervold, A. Lundervold, 深度学习在医学成像中的应用综述，聚焦核磁共振成像，Z. Med.Phys. 29 (2019) 102-127.

[33] R. Martinez-Fernandez、C. Gasca Salas、J. Obeso, Actualización en la enfermedad de parkinson, Rev. Clin.Clin.Condes 27 (3) (2016) 363-379.

[34] D.A. Morales, Y. Vives-Gilabert, B. Gómez-Ansón, E. Bengoetxea, P. Larrañaga, C. Bielza, M. Delfino, Predicting dementia development in Parkinson's disease using Bayesian network classifiers, Psychiatry Res. Neuroimaging 213 (2) (2013) 92-98.

[35] K. Kashihara, T. Shinya, F. Higaki, 帕金森病患者黑质体积丢失的神经髓鞘磁共振成像，J. Clin.Neurosci.18 (8) (2011) 1093-1096.

[36] A. Ortiz、J. Munilla、M. Martínez-Ibañez、J.M. Górriz、J. Ramírez、D. SalasGonzalez，使用基于等值面的特征和卷积神经网络检测帕金森病，前沿。Neuroinf.13 (2019) 48.

[37] A.G.奥斯本：《奥斯本大脑精华电子书》：A Fundamental Guide for Residents and Fellows, Elsevier Health Sciences, 2019.

[38] R.H. Perlis, Translating biomarkers to clinical practice, Mol.Psychiatry 16 (11) (2011) 1076-1087。

[39] R. Prashanth，S.D. Roy，通过患者问卷和预测建模早期检测帕金森病，Int.J. Med.Inf.119 (2018) 75-87.

[40] N. Pyatigorskaya、B. Magnin、M. Mongin、L. Yahia-Cherif、R. Valabregue、D. Arnaldi、S. Lehéricy，黑质核磁共振成像生物标志物鉴别特发性帕金森病的比较研究，Am.J. Neuroradiol.39 (8) (2018) 1460-1467.

[41] P. Riederer、E. Sofic、W.D. Rausch、B. Schmidt、G.P. Reynolds、K. Jellinger、M. B. Youdim，帕金森病人脑中的过渡金属、铁蛋白、谷胱甘肽和抗坏血酸，J. Neurochem.52 (2) (1989) 515-520.

[42] G. Rizzo、M. Copetti、S. Arcuti、D. Martino、A. Fontana、G. Logroscino，《帕金森病临床诊断的准确性：系统回顾和荟萃分析》，《神经病学》86 (6) (2016) 566-576。

[43] J.N. Rutledge、S.K. Hilal、A.J. Silver、R. Defendini、S. Fahn，通过磁共振研究运动障碍和脑铁，Am.J. Neuroradiol.8 (3) (1987) 397-411.

[44] M. Sasaki、E. Shibata、K. Tohyama、J. Takahashi、K. Otsuka、K. Tsuchiya、A. Sakai，帕金森病患者脑室和黑质的神经黑色素磁共振成像，Neuroreport 17 (11) (2006) 1215-1218。

[45] S.T. Schwarz、T. Rittman、V. Gontu、P.S. Morgan、N. Bajaj、D.P. Auer，T1 加权 MRI 显示帕金森病黑质信号丢失的阶段依赖性，Mov.Disord.26 (9) (2011) 1633-1638.

[46] K. Seppi，MRI 用于临床实践中神经退行性帕金森病的鉴别诊断，Parkinsonism Relat.Disord.13 (2007) 400-405.

[47] S. Sharma、C.S. Moon、A. Khogali、A. Haidous、A. Chabenne、C. Ojo、M. Ebadi，帕金森病的生物标志物（近期更新），Neurochem.63 (3) (2013) 201-229.

[48] S. Shinde、S. Prasad、Y. Saboo、R. Kaushick、J. Saini、P.K. Pal、M. Ingalhalikar，在神经络氨酸敏感核磁共振成像上使用深度神经网络的帕金森病预测标记，NeuroImage：Clinical 22 (2019) 101748.

[49] S. Sivaranjini、C.M. Sujatha，《基于深度学习的帕金森病卷积神经网络诊断》，Multimed.79 (2020) 15467-15479.

[50] K. Strimbu, J.A. Tavel, What are biomarkers?Curr.Opin.HIV AIDS 5 (6) (2010) 463.

[51] S.R. Suwijn, C.J. Van Boheemen, R.J. De Haan, G. Tissingh, J. Booij, R. De Bie, The diagnostic accuracy of dopamine transporter SPECT imaging to detect nigrostriatal cell loss in patients with Parkinson's disease or clinically uncertain parkinsonism: a systematic review, EJNMMI Res. 5 (1) (2015) 1-8.

[52] J.M. Tosk、B.A. Holshouser、R.C. Aloia、D.B. Hinshaw、A.N. Hasso、J.P. Macmurray、L.P. Bozzetti，铁和左旋多巴黑色素之间的相互作用对磁共振成像确定的 T 1 和 T 2 松弛时间的影响。Magnetic resonance in medicine, Magn.Reson.Med.26 (1992) 40-45.

[53] A.M. Vlaar、A. Bouwmans、W.H. Mess、S.C. Tromp、W.E. Weber，帕金森综合征鉴别诊断中的经颅双反射，J. Neurol.256 (2009).
[54] T. Vos, A.C. Arora, M. Barber, R.M. Bhutta, Z.A. Brown, A Global, regional, and national incidence, prevalence, and years lived with disability for 310 diseases and injuries, 1990-2015: a systematic analysis for the global burden of disease study, Lancet 388 (2015) 31678-31684.

[55] J. Wingate, I. Kollia, L. Bidaut, S. Kollias, Unified deep learning approach for prediction of Parkinson's disease, IET Image Proc. 14 (10) (2020) 1980-1989.
[56] R. Xu, H. Lin, K. Lu, L. Cao, Y. Liu, A forest fire detection system based on ensemble learning, Forests 12 (2) (2017) 217.

[57] M.H. Youdim、D. Ben-Shachar、P. Riederer，帕金森病是由铁和黑色素诱导的神经变性导致的黑质进行性绒毛膜沉着症吗？Acta Neurol.Scand.80 (1989) 47-54.

[58] Z.X. Zhang, G.C. Roman, Z. Hong, C.B. Wu, Q.M. Qu, J.B. Huang, G.E. Xian, Parkinson's disease in China: prevalence in Beijing, Lancet 365 (9459) (2005) 595-597.

Tewodros Megabiaw Tassew 西北工业大学软件工程硕士研究生

聂璇西北工业大学副教授

Bosong Chai 西北工业大学软件工程专业工程硕士候选人

- 通讯作者：
电子邮件地址：ted.meg1234@mail.nwpu.edu.cn(T.M. Tassew)，xnie@nwpu.edu.cn(N. Xuan)，chaibosong@mail.nwpu.edu.cn(B. Chai)。

PDDS：利用检测和分割算法从核磁共振成像和 DaT 扫描图像早期诊断帕金森病的软件

文章

关键词：

摘要

1.导言

2.早期诊断帕金森病的挑战

3.帕金森病的生物标志物

3.1.早期帕金森病的成像生物标志物

3.1.1.核磁共振成像

3.1.2.经颅超声检查（TCS）

3.1.3.DaT 扫描

4.相关作品

5.动机

6.方法论

6.1.方法

6.2.数据采集

6.3.预处理

6.4.网络架构

6.4.1.探测模型

6.4.2.分割模型

6.5.损失和评估指标

6.5.1.检测损失和指标

6.5.2.分割损失和指标

7.实验

7.1.训练检测模型

7.2.训练分割模型

8.成果

8.1.检测结果

8.2.分类结果

8.3.分割结果

8.4.与现有方法的比较

9.讨论

10.软件

10.1.用户界面

11.结论

代码可用性

CRediT 作者贡献声明

竞争利益声明

数据可用性

致谢

附录 A.补充材料

参考资料

Tewodros Megabiaw Tassew 西北工业大学软件工程硕士研究生

聂璇 西北工业大学副教授

聂璇西北工业大学副教授