建筑自动化 使用卷积神经网络和新颖的数据集进行稳健的图像分割 钢桥的疲劳裂纹 --稿件草稿--
建筑自动化
使用卷积神经网络和新颖的数据集进行稳健的图像分割
钢桥的疲劳裂纹
--稿件草稿--
手稿编号: 手稿编号
奥特康-D-24-02465
文章类型: 文章类型
原创文章 原文
关键字: 关键词:
图像分割;裂缝检测;裂缝分割;计算机视觉;疲劳裂缝;钢桥检测
图像分割;裂纹检测;裂纹分割;计算机视觉;疲劳
裂纹;钢桥检查
抽象: 摘要
利用无人机和图像处理技术实现当前桥梁视觉检测实践的自动化,是使这些检测更加有效、稳健和低成本的重要方法。在本文中,我们将研究开发一种新型深度学习方法,用于检测钢桥高分辨率图像中的疲劳裂缝。首先,我们提出了一个新的具有挑战性的基准数据集,其中包括钢桥裂缝图像及其像素注释。其次,我们研究并报告了在应用于高分辨率钢桥裂缝图像时,使用背景斑块对网络性能的重要性。最后,我们引入了一个损失函数,允许在神经网络训练中使用相对较多的背景补丁,从而显著降低误报率。
使用无人机和图像实现当前桥梁目视检查实践的自动化
加工技术是使这些检查更有效的重要方法,
坚固且成本较低。在本文中,我们研究了一种小说的发展
用于检测高分辨率图像中疲劳裂纹的深度学习方法
钢桥。首先,我们提出了一个新的具有挑战性的基准数据集,包括图像
钢桥中的裂缝及其像素级注释。其次,我们学习和
报告,使用后台补丁对网络性能的重要性
当应用于钢桥裂缝的高分辨率图像时。最后,我们介绍
允许使用相对大量的后台补丁的 loss 函数
用于神经网络训练,从而显著降低误报率。
作者感谢审稿人的全面修订。我们已将所有评论合并到新版论文中。我们还为您提供手稿的标记版本,其中跟踪了所有主要修改。作者感谢审稿人的认真修改。我们已将所有意见纳入新版论文。我们还为您提供了手稿的标注版本,其中所有主要修改都有记录。
1. 是否明确说明了研究的目标和基本原理?1.是否清楚地说明了研究的目标和理由?
评论者 #1:是的,作者清楚地阐明了他们的目标和理由。审稿人 1:是的,作者清楚地阐述了他们的目标和理由。 谢谢你 谢谢 审稿人 #2:手稿的目标没有明确说明。这项研究的基本原理尚不清楚。审稿人 2:稿件的目标表述不清楚。研究理由不明确。
为了更好地说明手稿的目标,对引言进行了修改,包括第 1.1 节。Class Imbalance,它回顾了与论文中研究的关键问题相关的先前工作。为了更好地阐明手稿的目标,对引言进行了修改,增加了第 1.1 节。类别失衡,回顾了与本文研究的关键问题相关的前人工作。
对引言部分进行了细微的修改,以澄清和突出手稿的目标。对引言部分稍作修改,以明确和突出稿件的目标。
我们的工作旨在解决的主要问题在引言部分的末尾提供:“我们的工作旨在解决的主要问题见导言部分的末尾: 总结上述考虑,我们确定了与钢桥整个高分辨率图像上自动裂缝分割的当前状态相关的两个问题:"综合上述考虑,我们发现了与当前在整个钢桥高分辨率图像上进行自动裂缝分割的技术水平相关的两个问题: (1) 缺乏钢桥裂缝的开放数据集;(1) 缺乏钢桥裂缝的公开数据集; (2) 缺乏一种方法,可以训练 CNN 在钢桥的整个高分辨率图像上对裂缝进行稳健的分割。这是我们通过这项工作解决的两个主要问题。(2) 缺乏一种方法,可以训练 CNN 对整个钢桥的高分辨率图像进行稳健的裂缝分割。这就是我们这项工作要解决的两个主要问题"。
最后,手稿的主要贡献在第 1.4 小节 - 文章的贡献中明确列出:“最后,在第 1.4 小节--文章的贡献中明确列出了手稿的主要贡献: 为了总结我们的主要贡献,我们将它们列出如下:"为了总结我们的主要贡献,我们将其列举如下:
2. 如果适用,应用/理论/方法/研究是否报告得足够详细,以允许其可复制性和/或再现性?2.如果适用,所报告的应用/理论/方法/研究是否足够详细,以便于复制和/或再现?
评论者 #1: 1 号审查员: 没有。 不
作者提供的数据集 (CSB) 在提供的参考文献 [71] (Cracks in Steel Bridges (CSB) dataset, 4TU.研究数据 (2024)。doi:10.4121/6162a9b6-2a20-46008207-e9dcd53a264a)。建议作者提供可公开访问的链接,例如 github。在提供的参考文献[71](Cracks in Steel Bridges (CSB) dataset, 4TU.ResearchData (2024). doi:10.4121/6162a9b6-2a20-46008207-e9dcd53a264a)中找不到作者提供的数据集(CSB)。建议作者提供可公开访问的链接,如 github。
CSB 数据集现已发布,可以访问引用的 DOI。CSB 数据集现已发布,可访问引用的 DOI。 2. 现在的流行趋势是,基于深度学习的研究通常会公开源代码,以确保其他感兴趣的研究人员可以毫不费力地复制他们的工作。公开源代码还可以提高文章的可信度和传播性。
源代码现在作为本手稿的补充材料提供。源代码现作为本手稿的补充材料提供。 评论者 #2: 是的。 是的。 该方法报告了足够详细的内容,以允许其可复制性。
3. 如果适用,统计分析、对照、抽样机制和统计报告(例如,P 值、CI、效应大小)是否适当且描述良好?
评论者 #1:是的,作者充分描述了他们的评估指标和统计分析。评论者 #2:分析和细节描述得很好。评审人 1:是的,作者充分描述了他们的评估指标和统计分析。审稿人 2:分析和细节描述得很好。
谢谢
评论者 #1:是的。 是的。 谢谢
作者应该提供更多的定性数据。例如,在图 6 和图 7 中,显示更多样化的样本会令人信服。作者应提供更多定性数据。例如,在图 6 和图 7 中,如果能显示更多不同的样本,会更有说服力。
图 6 和图 7 各扩展了一个例子。为了提供更多样化的示例,图 7 包括具有小裂纹、大裂纹和无裂纹的图像的示例。同样在图 6 和图 7 中,每个输出分割图都标明了骰子分数,以提供更多的定性数据。图 6 和图 7 各扩展了一个实例。为了提供更多不同的例子,图 7 包括了有小裂纹、大裂纹和无裂纹的图像。图 6 和图 7 还为每个输出分割图标出了骰子分数,以提供更多定性数据。 为了提供更多的定性数据,表 2 和表 3 从附录移至手稿的引言,添加表 4 以总结使用的数据集,添加图 8、9、11 以支持论文中的分析。为了提供更多定性数据,表 2 和表 3 从附录移到了稿件的引言部分,表 4 用于总结所使用的数据集,图 8、图 9 和图 11 用于支持论文中的分析。
评论者 #2:表格和图表的清晰度和分辨率可以分别改进。在比较神经网络性能的所有表格中,最佳性能指标都以粗体突出显示。检查过的所有图表的分辨率和图表中的所有必要细节都可以在电子版和印刷版中查看。子图的标题现在得到了改进。
5. 如果适用,结果的解释和研究结论是否得到数据支持?
审稿人 #1:是的 是 谢谢 审稿人 #2:适当地用 X 标记:审阅人 2:酌情用 "X "标记: 否 没有 结果的解释没有科学说明。它们太像报告了,因此对读者来说不是那么有价值。对结果的解释没有科学的说明。它们太像报告,因此对读者的价值不大。
第 5.2 .1 节中添加了对结果的广泛解释,我们分析了所提出的损失函数。此外,讨论部分对结果进行了广泛的解释。在第 5.2.1 节中,我们分析了所提出的损失函数,并对结果进行了广泛的解释。此外,讨论部分还对结果进行了广泛解释。
6. 作者是否清楚地强调了他们的研究/理论/方法/论点的优势?
评论者 #1:是的。谢谢你 审稿人 #2:这项研究的优势或贡献没有明确强调。审阅者看不到对最新技术的明显创新。
本文的第 1.4 节 贡献 中提供了对我们手稿最新技术的创新说明。
我们的工作旨在解决的主要问题是:“总结上述考虑,我们确定了与钢桥整个高分辨率图像上自动裂缝分割的现状相关的两个问题: (1) 缺乏钢桥裂缝的开放数据集;(1) 缺乏钢桥裂缝的公开数据集; (2) 缺乏一种方法,可以训练 CNN 在钢桥的整个高分辨率图像上对裂缝进行稳健的分割。这是我们通过这项工作解决的两个主要问题。
最后,手稿的主要贡献在第 1.4 小节 - 文章的贡献中明确列出:“最后,在第 1.4 小节--文章的贡献中明确列出了手稿的主要贡献: 为了总结我们的主要贡献,我们将它们列出如下:
此外,结论部分列出了有助于最新技术的发现:主要发现是:
当使用图像补丁训练神经网络分割整个大型图像上的裂缝时,使用大量的背景补丁可以避免高假阳性率。换句话说,训练神经网络的补丁数据集的组成对其性能有重大影响;
常见的损失函数在与背景补丁一起使用时,在估计神经网络错误时缺乏敏感性;
损失函数反转解决了上述问题,并允许在训练期间更有效地使用背景补丁。这使我们能够在应用于拟议的数据集时获得 71.99% 的 F1 分数。这种性能水平是常见的损失函数和常见的训练方法无法实现的。所提出的损失函数可以有效地应用于包含仅注释为背景的像素的图像分割数据集。
在整个图像上测试时,补丁大小对神经网络性能有显著影响,这意味着整个图像中包含的全局信息有助于区分类似裂纹的特征和实际的裂纹。
7. 作者是否清楚地说明了他们的研究/理论/方法/论点的局限性?
评论者 #1:没有。
建议作者描述该方法的局限性。
建议笔者提供一些失败的案例。
审稿人 #2:该研究的局限性没有明确说明,因为手稿中没有包含未来的需求和趋势。
第 6 节提供了方法和故障案例的局限性。讨论:“我们使用 BCE 和 Dice loss 的总和进行反演,并获得了一个强大的网络,用于对噪声图像进行裂纹分割。但是,在一些测试图像上,网络无法分割裂缝或提供误报分割。图 12 中提供了一些失效情况,其中在左柱中,来自结构的阴影被识别为裂缝(12a、12d、12g),在柱中,表面上的污垢被识别为裂缝
在右列中,裂缝被遗漏了 (12c, 12f, 12i)。当应用于其他基于性能的损失函数时,损失函数反转可能同样有效,甚至更有效。然而,这需要进一步研究。损失函数反转概念的一个主要缺点是它只能应用于两个类分割任务。应用于多类分割需要进一步调整。
,而在右列中,裂缝被遗漏(12c、12f、12i)。损失函数反演在应用于其他基于性能的损失函数时可能同样有效,甚至更加有效。不过,这还需要进一步研究。损失函数反转概念的一个主要缺点是,它只能应用于两类分割任务。将其应用于多类分割需要进一步调整"。
该领域的趋势也在新的 Section Discussion 部分进行了描述。
8. 手稿的结构、流程或写作是否需要改进(例如,添加小标题、缩短文本、重新组织部分或将细节从一个部分移动到另一个部分)?
评论者 #1:是的。
鼓励作者在单独的讨论部分提供对结果的深入分析,包括对成功和失败案例的讨论以及与现有文献和方法的比较。
完成 已完成 2.建议作者讨论该研究的局限性和未来工作的方向。
除上述内容外,第 6 节末尾还提到了该研究的局限性。讨论以及未来工作的方向:“但是,当然,由更高的精度值表示的假阳性率降低也伴随着由召回值降低表示的检出率略有降低,如表 7 所示。虽然我们将精度-召回率的权衡转化为更有利的值,但对于实际应用来说,确保裂纹检测系统不会遗漏任何裂纹仍然很重要。这个问题将在以后的工作中更详细地讨论。我们的目标是开发一种强大的裂缝分割算法,该算法可以应用于整个图像,类似于在桥梁检查期间可以获得的算法。在未来的工作中,我们计划以概率方式将开发的分割系统与破解定位系统相结合。这将进一步提高自动检测系统的稳健性,使其足够可靠,可以应用于实际应用。
审稿人 #2:应该进行许多改进,例如文章标题和章节标题的命名。
文章标题从“Deep Learning for Segmentation of Cracks in High-Resolution Images of Steel Bridges”更改为:“Robust image segmentation with convolutional neural networks and a novel dataset of fatigue cracks in steel bridges”文章标题从 "Deep Learning for Segmentation of Cracks in High-Resolution Images of Steel Bridges "更改为:"Robust Image segmentation with convolutional neural networks and a novel dataset of fatigue cracks in steel bridges"。
部分的一些标题也发生了变化
9. 手稿可以从语言编辑中受益吗? 9.手稿可以从语言编辑中受益吗?
评论者 #1:是的
我们已经彻底检查了语法和句子结构。
评论者 #2:否
谢谢
10. 此字段为可选字段。除了与上述问题相关的建议外,您还有其他建议,请在此处编号并列出。
评论者 #1:
在这个领域,研究人员通常需要将数据集分为训练集、验证集和测试集,验证集通常用于调优超参数,避免在训练过程中过拟合。在手稿中没有找到验证集的相关内容,请解释。
在 Section 4.1 Training 中添加了一个句子:
在每次训练之前,训练子集中的补丁被随机分为训练补丁和验证补丁,其中
率。 2. 在语义分割任务中,研究人员通常会忽略 background 类 (label=0),即 background 类不会造成任何损失,建议作者包括这样的比较实验或解释为什么不这样做(忽略 background 类)。
第 6 节给出了解释。讨论:
在不平衡数据集上训练网络的一些方法涉及在训练过程中忽略背景像素 [61],然而,这在我们的例子中并不适用,因为我们的目标是提供更多具有背景的训练样本,以减少由于裂纹状特征而导致的误报。 3. 作者在比较实验中只提到了两种方法 ([59] 和 [91])。[59] 是一个使用编码器-解码器架构的 CNN 网络,[91] 也是一个编码器-解码器模型,但来自 2019 年,而不是同行评审的研究。建议作者比较过去两年的新兴方法(例如,高分辨率模型 (HRNet) 或基于变压器的模型)。更多的模型比较将有助于提高手稿的说服力。 4. 处理类别不平衡的常见做法是使用焦点损失,建议作者包括这样的比较实验。
现在,我们已经在几个部分彻底解决了损失函数:
在 Section 1.2 中添加了对损失函数的回顾
现在使用 Focal 和 Focal Tversky 损失添加实验,结果在 Section 5.2.1 中提供。
背景补丁和损失函数的效果将在 讨论 部分进一步讨论
强烈建议作者在存储库中公开提供数据集和代码,这有助于增强论文的影响力。
数据集已公开可用。代码作为本手稿 的补充材料 6.在引入分辨率时,乘号不应为“x”(
).
纠正
审稿人 #2:本文研究了一种新颖的深度学习方法的开发,用于检测钢桥高分辨率图像中的疲劳裂纹。虽然已经有许多比较工作和有趣的发现,但该论文并不符合该期刊的创新要求。因此,我建议作者考虑向更注重报告而不是原创创新的期刊投稿,这与 AutCon 不同,后者强调原创贡献。一些具体问题包括:
创新贡献没有明确定义。作者提供了不同深度学习结构之间的详细比较,这很重要,但不是原创性的贡献。
对引言、描述和结论部分进行了修改,以强调手稿的贡献,很明显深度学习结构并不是最重要的。 2) 语言和表达缺乏专业性。例如,标题的范围太广,很难确定论文的主要关注点。
手稿的标题现已更改,见上文 3) 论文所解决的具体问题或问题没有很好地表达出来。鉴于大量论文使用深度学习技术进行裂纹分割,目前尚不清楚这项工作的独特目的或贡献是什么。
此评论已在之前的回复中得到解决。一般来说,论文的引言部分和目标现在在第 1.4 节中得到了更好的陈述。4) 2022 年提出的 ConvNext 不被认为是最先进的图像分割模型。
ConvNext 模型不再被称为最先进的模型。
副编辑:鼓励作者在处理审稿人的意见后重新提交手稿作为新提交。特别注意令人信服地带出新颖性和贡献。
谢谢。
4 摘要
使用无人机和图像处理技术实现当前桥梁目视检查实践的自动化是使这些检查更有效、更稳健和更便宜的重要方法。在本文中,我们研究了一种新型深度学习方法的开发,用于检测钢桥高分辨率图像中的疲劳裂纹。首先,我们提出了一个新的具有挑战性的基准数据集,包括钢桥裂缝的图像及其像素级注释。其次,我们研究和报告了当应用于钢桥裂缝的高分辨率图像时,使用背景补丁对网络性能的重要性。最后,我们引入了一个损失函数,它允许使用相对大量的背景补丁进行神经网络训练,从而显著降低假阳性率。
使用卷积神经网络和新型钢桥疲劳裂纹数据集进行鲁棒的图像分割
Andrii Kompanets
, 高塔姆·拜
、 Remco Duits
, Davide Leonetti
, H.H. (Bert) 斯奈德
、Andrii Kompanets
、高塔姆-拜
, Davide Leonetti
, H. H. (Bert)。H. (伯特)斯奈德
埃因霍温理工大学建筑环境系,荷兰埃因霍温
埃因霍温科技大学埃因霍温人工智能系统研究所,荷兰埃因霍温
埃因霍温理工大学数学与计算机科学系,荷兰埃因霍温
关键词:图像分割,裂纹检测,裂纹分割,计算机视觉,疲劳裂纹,钢桥检测
1. 引言 1.引言
桥梁的结构完整性受到各种因素的影响,如疲劳、腐蚀、可能的交通碰撞,甚至自然灾害,这些因素会影响桥梁的结构完整性,并可能导致灾难性的倒塌[1,2,3]。此外,最近的统计数据表明,需要仔细关注桥梁的状况和安全。截至 2023 年,在美国的 621,510 座桥梁中,
被认为存在结构缺陷,并且
需要进行重大维修工作,根据 [4] 中的报告。与此同时,在欧洲,桥梁已经相当老化 [5]。例如,在荷兰,大约
钢桥和
的混凝土桥梁的剩余设计寿命在
和
根据 [6] 中所做的桥梁状况评估。
桥梁维护是防止退化过程达到不安全阶段的一种措施。在维护中,桥梁检查旨在检测损坏情况,这对于评估桥梁的结构完整性和规划进一步的维护步骤(例如补救工作或后续检查)是必要的。根据当地法规,对检查程序和技术有不同的要求。根据 [5],在欧洲国家和美国,检查范围可以从表面或常规检查到主要或深入检查。进行例行检查以识别广泛的损坏并评估结构的一般状态。相比之下,主要检查涉及对所有可接近的桥梁部分进行仔细检查。
在主要检查期间,可以使用一系列检查技术。由于其简单性,目视检查是桥梁检查中最常用的技术,尽管它只能检测相对较大尺寸的表面缺陷,并且其性能受到个人主观评估或不可预测的天气条件等方面的显著影响[7,8]。相反,先进的无损检测 (NDT) 技术,如超声波检测,即使在被测表面下方也能检测到相对较小的缺陷 [9]。然而,由于其巨大的工作量、成本和复杂性,先进的无损检测技术主要用于更仔细地检查最初通过目视检查检测到的损伤,或用于检查桥梁结构的断裂关键部分 [9]。
由于目视检查是最常见的检查类型,在本文中,我们努力通过开发一种在图像上自动检测裂纹的算法来增强当前的目视检查实践。为了对桥梁结构进行定期 目视检查,训练有素的检查员目视观察桥梁结构,评估其状况。此外,检测人员可以使用放大镜或工具清洁被检测表面,或者在怀疑油漆覆盖裂缝时局部去除油漆。可以使用斗式卡车或攀爬设备和绳索等特殊车辆来伸出手进入桥梁的不同部分 [10]。然而,靠近高架结构可能会引起检查员和公众的安全担忧。此外,在桥梁附近的高海拔地区工作的必要性可能会影响桥梁交通,并且可能需要对检查员进行额外的培训 [11]。随着机器人技术的进步,可以消除上述目视检查的缺点。大量研究表明了应用机器人进行桥梁检查的可能性和好处,这些研究在
.地面机器人和攀爬机器人便于自动化接触式无损检测,例如超声波检测,因为它们通常位于被测表面附近,甚至安装在被测表面。相比之下,空中机器人或无人驾驶飞行器 (UAV) 具有更高的机动性,并且能够相对容易和快速地到达被检查的表面。然而,为了无人机的安全运行,它们必须在与被检查表面保持一定距离的情况下操作以防止碰撞,除非它是专门为此目的设计的,如 [13, 14] 中所做的那样。因此,无人机的使用旨在通过收集要检查的桥梁细节图像来改进当前的目视检查实践 [12]。当用作目视检查工具时,无人机具有很大的潜力,可以将检查成本降低多达
和时间
,如 [15] 中所述。此外,无人机辅助检查的可靠性可以达到甚至超过传统目视桥梁检查的可靠性 [16]。然而,较长的图像后处理时间可能是这种方法的缺点之一,这限制了无人机在目视检查中的适用性 [17],因为由于人工检查员分析这些图像而导致延迟是很常见的,在某些情况下可能长达几周。或者,可以使用计算机视觉算法来减少分析图像所需的时间,从而实现检测程序的自动化。除了速度和成本的提高外,无人机收集的图像的自动损坏检测还可以更加准确和稳健。这在 [16] 中得到了证明,其中自动检测能够检测到在传统目视桥梁检测中未检测到的裂缝。除了自动视觉检查外,相同的算法还可以与 [18] 中提出的增强现实和数字孪生技术结合使用。因此,在本文中,我们打算对检查过程中收集的图像提出一种新颖的自动疲劳裂纹检测算法。
1.1. 用于裂纹检测的深度学习
多年来,已经开发了不同的计算机视觉算法来自动检测和测量桥梁中的结构损坏,从经典的图像处理到数据驱动的机器学习模型。深度学习和卷积神经网络 (CNN) 领域的最新进展使自动结构损伤检测取得了有影响力的进步。由于疲劳裂纹是目视检查中的主要关注点之一 [9],因此使用深度学习进行裂纹分割和检测引起了研究人员的极大兴趣,从而在文献综述中全面列举了许多方法学贡献:
.三种主要的计算机视觉方法用于识别图像上的裂缝,即 [21]:
图像分类算法可以指示图像上是否有裂缝,并提供其类型的分类[22]。
对象定位算法通过使用所谓的边界框给出图像上裂缝的大致位置 [23] 来扩展图像分类。
图像分割算法可以获得非常准确的裂纹信息,因为自动分割算法将检测图像中的每个像素分类为裂纹像素或背景像素。自然,这提供了图像上裂纹的准确位置,并允许测量其几何形状(长度、宽度等)。[24].
裂纹测量对桥梁维护工作流程的重要性在 [17] 中指出。因此,裂缝分割方法引起了大部分研究兴趣。[25] 报道了专门针对裂纹分割的出版物的综述。基于 U-Net 架构 [26] 的神经网络或编码器-解码器网络是最常用于裂纹分割的。许多出版物探讨了不同选择对编码器-解码器网络的裂纹分割性能的影响,即:(1) 神经网络架构 [27, 28, 29, 30, 31, 32, 33, 34, 35];(2) 损失函数 [36, 37];(3) 后处理 [38];(4) 迁移学习 [29, 39, 40]。结果表明,编码器-解码器网络对于裂纹分割任务是有效的,特别是当与骰子损失函数[41]和二进制交叉熵损失[36]一起使用时,以及与域内或跨域迁移学习一起使用时。König 等人 [42] 提出了一个采用基于编码器-解码器架构的 CNN 进行裂缝分割任务的最新示例。根据表 3,该网络在 CFD 数据集 [43] 上显示了最先进的性能。
基于生成对抗网络 (GAN) 的方法较少用于裂纹分割。与其他方法不同,基于 GAN 的方法可以对一组没有注释的图像进行裂缝分割,即无监督学习 [44, 45, 46],或者使用部分准确的注释或少量带注释的图像,即半监督学习 [46, 47]。但是,与监督学习方法相比,此类方法的性能通常较低。
Transformer 网络 [48\u201249] 是计算机视觉领域的趋势,当引入时,它们在大型数据集上表现出优于 CNN 的性能。CNN 依赖于归纳偏差和几何先验,例如局部相关性、特征层次结构和平移等方差。transformer 网络的新想法在于拒绝大多数几何先验,而是依赖海量数据集。例如,基于 transformer 的 Segment Anything 模型 [50] 在包含 3 亿张图像的数据集上进行了预训练,并在包含 100 万张图像的数据集上进行了微调。由于基于注意力的架构可能存在可扩展性问题,通常普遍存在 transformer 和 CNN 的组合 [51\u20125253]。然而,最近推出的一个名为 ConvNext [54] 的 CNN 表明,经典 CNN 可以比变压器网络具有更好的性能,同时更易于实现且对训练的要求较低 [54]。
另一类方法是几何深度学习。与 transformer 和 CNN 相比,几何学习方法在神经架构中采用了更多的归纳偏差和几何先验。众所周知,这种方法在训练数据可用性有限的情况下具有良好的性能,并且具有固有的旋转平移等方差。此外,由于可训练参数的数量减少,几何学习方法还提高了向其他数据集的可转移性。在中小型标记数据集上旋转平移等方差几何学习的这种数据效率和可转移性特性也在 [55] 的线分割任务中进行了报道。ARF-Crack [56] 是这种几何学习方法应用于裂纹分割的一个例子,其中通过使用主动旋转滤波器 (ARF) [57] 增强了神经网络性能。
几何学习方法的旋转平移等方差通常是设计上可取的。然而,像 ConvNext 这样的架构,加上大型带注释的数据集和数据增强,可以从数据中学习这些几何不变性。此外,CNN 架构在训练数据指导下具有很强的局部像素自适应性,而几何学习依赖于直观的几何先验 [58],这可能会干扰有利的局部像素自适应性。
在数据收集和处理阶段,我们使用了有效的几何半自动注释工具[59]为裂缝生成准确的地面实况标签,见附录A。这使我们能够轻松生成大量注释良好的训练数据,这些数据对于使用 ConvNext 架构非常重要。因此,我们可以避免使用计算要求更高的几何深度学习架构。总之,我们整合了所有这些考虑因素,并促进了基于传统 CNN 方法的架构设计,该方法将 ConvNext [54] 与 [42] 提出的编码器-解码器方法相结合。事实上,正如第 5 节所述,我们的方法在我们介绍的钢桥裂缝的大型注释数据集上显示出有竞争力的性能。
1.2. 类不平衡
正如 [60] 中指出的那样,在大多数广泛使用的带有沥青路面或混凝土结构图像的数据集中,数据集中所有像素中裂纹像素的比例可以下降到
.这种类不平衡会导致神经网络性能不佳。这个问题在医学图像分割领域也很重要,因为感兴趣的物体通常只占图像的一小部分 [61]。因此,对于裂纹分割,文献表明,由于类的不平衡,训练方法的选择至少与神经网络架构的选择一样重要。为了解决图像分割中的类不平衡问题,开发了两大类方法:数据级方法和算法级方法 [60]。
数据级方法通常使用 patch 方法。在这种方法中,图像被分割成相邻的补丁,并使用平衡数量的包含而不是裂纹像素的补丁来训练神经网络,这些补丁分别称为裂纹和背景补丁。通常,这意味着一些背景补丁不用于训练,或者使用数据增强技术人为增加裂缝补丁的数量。这样,背景像素在训练数据集中的优势就降低了,从而使训练更加稳定。修补方法通常用于裂纹分割,因为它还有助于显著减轻计算负担。相反,处理类不平衡的算法级方法通常依赖于神经网络的损失函数。
算法级方法通常基于特定损失函数的使用。例如,可以只计算特定像素的损失 [61],或者为接近裂纹的像素 [60] 提供权重。一种更广泛应用的策略是损失函数,它为过度表示的类别提供较低的损失值 [60]。类不平衡的损失函数可分为基于分布的损失函数(加权二进制交叉熵 [62]、焦点损失 [63] 等)、基于性能的损失(骰子损失 [41]、Tversky 损失 [64]、Jaccard 损失 [65] 等)以及基于分布和基于性能的损失的组合(例如焦点 Tversky 损失 [66])。与基于分布的组合相比,基于性能的组合通常提供更好的性能,因为它们直接优化了性能指标 [60]。在这项工作中,我们提出了这个问题的替代解决方案,因为由于数值考虑,基于性能的损失函数对背景补丁不够敏感。
1.3. 钢桥中的裂纹检测
大多数关于裂纹检测的研究都涉及道路路面和混凝土的裂纹图像,而钢结构中的裂纹检测研究较少,这可能是由于缺乏开放访问的数据集。[67, 68] 中提供了钢桥梁裂缝图像的数据集。它没有公开提供,只有参加IPC-SHM 2020竞赛的研究人员[67]才能访问它。该数据库由 120 个像素标记图像组成,大小为
和
像素。此外,还收集了 80 张未标记的图像,这些图像旨在用于测试和验证。这些图像由手持式相机从选定的距离收集到桥梁结构。通常,图像包含钢表面,在焊接连接处出现裂纹,其中还存在手写标记,从而使分割任务复杂化。 有关裂缝检测的研究大多涉及路面和混凝土中的裂缝图像,而对钢结构裂缝检测的研究较少,这可能是由于缺乏可公开访问的数据集。文献[67, 68]介绍了一个包含钢桥梁裂缝图像的数据集。该数据集未对公众开放,只有参加 IPC-SHM 2020 竞赛[67]的研究人员才能访问该数据集。该数据库由 120 幅像素标注图像组成,尺寸为
和
像素。此外,还收集了 80 张未标记的图像,用于测试和验证。这些图像是通过手持相机从选定的距离收集到的。通常情况下,图像中的钢材表面会在焊接连接处出现裂缝,而手写标记也会出现在焊接连接处,从而使分割任务变得更加复杂。
本小节简要回顾了用于检测和分割 IPC-SHM 2020 数据集图像中裂纹的算法
,总结于表 1 中。
在 [68] 中,使用补丁分类方法来检测裂缝。CNN 用于将图像补丁分为三类:裂缝、背景和笔迹。对手写补丁进行分类是为了减少假阳性破解检测的数量,因为笔迹很容易被神经网络误认为是破解。此外,这项工作旨在通过使用超分辨率图像来改善裂纹检测结果。为了提高图像的分辨率并使裂纹更易于识别,使用了超分辨率神经网络。令人惊讶的是,当在分辨率更高的图像上训练和评估用于裂纹检测的神经网络时,裂纹检测性能会降低。这些结果可以用以下事实来解释:超分辨率神经网络是一个生成网络,这意味着它会产生逼真的图像,而这些图像不一定是所拍摄实际对象的准确表示。
在 [69] 中,补丁分类方法通过随后的后处理步骤进行扩展,以使用有关识别裂纹的补丁相互排列的信息来完善补丁分类的结果。此外,经典的图像处理技术用于测量检测到的裂纹的长度和宽度。
在 [70] 中,作者提出了一种反馈更新训练策略,该策略由几个训练阶段组成,以解决由裂纹状特征引起的错误检测,例如手写标记、阴影、结构的接缝和其他看起来像裂纹的特征。在第一个训练阶段,使用随机破解补丁和随机背景补丁来训练神经网络进行补丁分类。在第二个训练阶段,用于训练的背景补丁取自经过训练的神经网络容易出现误报错误的位置。第三和第四训练阶段重复该过程。此外,在识别出带有裂纹的图像块后,应用编码器-解码器分割网络来分割这些补丁上的裂缝。交并比 (IoU) 指标用于估计神经网络的性能,该指标在
.
在 [71] 中,应用编码器-解码器网络对整个破解图像进行分割。在 [71] 480 个大小的裂缝块中训练神经网络
生成。有趣的是,研究还表明,补丁分类和分割神经网络的顺序应用可以显著改善图像中的裂缝分割结果
表 1:基于 IPC-SHM 2020 [67] 中类似但较小的数据集的钢桥裂纹检测方法。对于在我们更具挑战性的数据集上测试的方法,我们得到了相似但有时更低的性能值,参见表 6。这
和
度量标准在 Section 4.2 中解释。 表 1:基于 IPC-SHM 2020 [67] 中类似但较小的数据集的钢桥裂纹检测方法。对于在我们更具挑战性的数据集上测试的方法,我们得到了相似但有时更低的性能值,参见表 6。这
和
度量标准在Section 4.2 中解释。
方法
方法
性能
徐等。al. [68]
补丁分类
Quqa 等。al. [69]
童 et.al。[70]
Dong 等人。[71]
分割
张 et.al.[72]
借记单位
韩 et.al。[73]
孟 et.al.[74]
再
具有复杂的背景。这是因为分类神经网络具有更宽的视野,并且具有更好的区分裂纹和裂纹状特征的能力 [72]。仅在 [72] 中
的 IoU 是仅使用分割神经网络实现的。性能几乎翻了一番
通过使用分割神经网络仅对那些被分类神经网络分类为裂纹补丁的图像补丁进行划分。最后,分段性能进一步提高,最高可达
通过将补丁分类和分割神经网络组合成一个复杂的管道。
Similarly, in [73] a two-step approach for crack segmentation is used. First, a YOLOv3 algorithm is used to identify the approximate location of cracks while an ensemble segmentation neural network is applied to segment cracks in that region. It is reported that the YOLOv3 algorithm failed to distinguish crack-like features from cracks when the input patch size is
, so the input patch size is increased to
pixels. To segment cracks in the area of the image, which is identified by the YOLOv3 algorithm as a crack area, 15 DeepLabv3+ [75] encoder-decoder networks are trained on different datasets with different complexity. The IoU was reported at the level of
. 类似地,[73] 采用了两步法进行裂缝分割。首先,使用 YOLOv3 算法识别裂缝的大致位置,然后应用集合分割神经网络分割该区域的裂缝。据报告,当输入斑块大小为
时,YOLOv3算法无法从裂缝中区分出类似裂缝的特征,因此输入斑块大小增加到
像素。为了分割 YOLOv3 算法识别为裂缝区域的图像中的裂缝,在不同复杂度的数据集上训练了 15 个 DeepLabv3+ [75] 编码器-解码器网络。
. 的水平报告了 IoU。
Finally, a comprehensive study was made in [74], where a BiSeNet V2 [76] is used as an initial lightweight and fast segmentation neural network for which the results are enhanced with a high-precision crack segmentation algorithm based on U-Net with additional attention layers. The overall performance of the combination of these two neural networks is reported at the level of
The work also considers a drone control algorithm, where the flight path of the drone is modified to get closer to a crack, once the lightweight neural network detects a crack. Further, the physical crack width measured in millimeters is estimated using a width measurement algorithm and a depth map provided by a ZED2 stereo camera. All components are integrated into a single inspection system including a drone with a specifically designed control system, crack detection and segmentation algorithms, and a crack physical width measurement algorithm. The developed inspection system was tested in real-world conditions, proving the feasibility of the concept of fully automatic visual inspection using a UAV. 最后,[74] 中进行了一项综合研究,将 BiSeNet V2 [76] 用作初始的轻量级快速分割神经网络,并使用基于 U-Net 的高精度裂缝分割算法和额外的关注层对结果进行增强。这两个神经网络组合的总体性能报告为
级。此外,利用宽度测量算法和 ZED2 立体相机提供的深度图,可以估算出以毫米为单位的物理裂缝宽度。所有组件都集成在一个检测系统中,包括一个带有专门设计的控制系统的无人机、裂缝检测和分割算法以及裂缝物理宽度测量算法。开发的检测系统在实际条件下进行了测试,证明了使用无人机进行全自动视觉检测概念的可行性。
以前的工作表明,由于将裂纹状特征误识别为裂纹,用于钢桥整个图像裂缝分割的单个神经网络往往具有较高的假阳性率。为了解决这个问题,常见的方法是将 crack segmentation neural network 与 crack localization neural network 结合使用。裂纹定位神经网络可以可靠地指示裂纹的近似区域,并避免大量的假阳性误差。在裂缝定位的区域,应用了用于裂缝分割的神经网络。通过这种方式,可以避免大量的误报分割。事实上,这种顺序组合被证明是开发裂纹检测和测量框架的好方法,但是,如果定位神经网络错过了裂纹,那么分割神经网络就没有机会检测到它。对整个图像进行稳健的裂纹分割,可以以更复杂的方式组合它们,而不是以简单的顺序方式组合它们,从而显著提高裂纹检测和测量系统的整体性能。因此,在这项工作中,我们的目标是开发一个强大的单一神经网络,当应用于整个图像时,用于裂缝分割,并将其与裂缝定位算法的集成留给未来的工作。
1.4. 文章的贡献
总结上述考虑,我们确定了与当前钢桥整个高分辨率图像上自动裂缝分割技术相关的两个问题:(1) 缺乏钢桥裂缝的开放数据集;(2) 缺乏一种方法,可以训练 CNN 以对钢桥的整个高分辨率图像上的裂缝进行稳健的分割。这是我们通过这项工作解决的两个主要问题。
存在许多用于混凝土结构或沥青路面裂缝分割的公开数据集[77],见表2。然而,与其他材料相比,钢材裂纹的检测有其特殊性,尽管科学界对自动视觉裂纹检测领域的兴趣越来越大[21],但据作者所知,还没有公开可用的钢桥裂纹图像数据集。为了缩小这一差距,我们收集了钢桥裂缝的图像,并使用我们的半自动工具[59]对其进行注释以进行分割,该工具在附录A中进行了简要描述。该数据集名为 Cracks in Steel Bridges (CSB),我们在本文中发布了该数据集。此外,我们还探索了使用补丁训练神经网络的方法,使我们能够在整个高分辨率图像上实现最佳性能。我们试验了不同数量的背景补丁,这些补丁与破解补丁一起使用来训练神经网络。这些实验旨在强调使用适量背景补丁的重要性。以前关于钢桥裂缝分割的工作忽略了这一点,只使用裂缝补丁进行训练[72,71],使用相同数量的背景补丁和裂缝补丁[70],或者缩小图像尺寸而不是使用补丁[73,74]。基于对背景补丁效果的研究结果,我们提出了对常用损失函数的修改,从而呈现反演的损失函数,旨在允许使用更多的背景补丁进行神经网络训练。最后,我们研究了补丁大小对神经网络性能的影响,以及它如何影响神经网络区分裂纹和裂纹状特征的能力。
为了总结我们的主要贡献,我们将其列出如下
在第 2 节中,我们描述了所提出的用于裂纹分割的深度学习方法。本文的第 3 部分专门介绍了我们进行实验的数据集,包括新颖的钢桥裂缝 (CSB) 数据集。第 4 节解释了我们的实验、使用的训练算法和评估方法。在第 5 节中,我们总结了获得的结果,并在第 6 节中进行了讨论。
2. 方法
所提出的算法使用基于编码器-解码器架构的 CNN 来分割钢桥裂缝的图像。该网络将图像作为输入并生成分割图作为输出,该图为输入图像的每个像素分配 0(背景)或 1(裂纹)的值。但是,由于硬件计算内存限制以及我们数据集中图像的维度高达
像素。我们估计在这种大小的图像上训练我们的网络需要 189 GB 的 RAM,而我们用于实验的 GPU 是 NVIDIA A100 具有 40 GB 的 RAM 。此问题的一种可能解决方案是将输入图像缩减采样到较小的大小,以实现高效分割。但是,图像的缩减采样可能会导致包括裂缝在内的精细细节丢失,因为它们是图像的薄结构,宽度为几个像素,具体取决于图像的空间分辨率,即像素与毫米的比率。
名字
可用性
对象/材质
图像数量 (大小)
CRACK500 [79]
公共
路面
间隙 10m [80]
公共
路面
CrackTree260 [28]
Public 公众
Pavement 人行道
various sizes
各种尺寸
Stone331 [28]
Public 公众
Stone 石材
CRKWH100 [28]
Public 公众
Pavement 人行道
CrackLS315 [28]
Public 公众
Pavement 人行道
CrackForest [43] 裂缝森林 [43]
Public 公众
Pavement 人行道
DeepCrack [81]
Public 公众
Concrete + pavement 混凝土+路面
Yandg. CD [82] Yandg.CD [82]
Public 公众
Concrete + pavement 混凝土+路面
800
CrackIT [83]
Public 公众
Pavement 人行道
Aigle-RN [84]
Public 公众
Pavement 人行道
EdmCrack600 [85]
Public 公众
Pavement 人行道
FIND
Public 公众
Bridge deck, Pavement 桥面、路面
IPC-SHM 2020 [67]
Not public 不公开
Steel bridge 钢桥
up to 5152
高达 5152
CSB (ours) [86]
Public 公众
Steel bridge 钢桥
up to
高达
Table 3: List of publications with results on the CFD dataset, using 0,2 and 5 pixels tolerance region around the ground truth annotation for evaluation表 3:使用地面实况标注周围 0、2 和 5 像素容差区域对 CFD 数据集进行评估的结果出版物列表
Method 方法
Pixel tolerance region 像素容差区域
Pr
Re 回复
F1
Ai et al. [88] 艾等人[88]
0
47.1
75.7
56.7
Yang et al. [89] 杨等人[89]
0
70.5
Chen et al. [34] 陈等人[34]
0
67.8
74.7
71.0
Augustauskas et al. [90] 奥古斯塔斯卡斯等人[90]
0
71.21
Rill-Garcia et al. [91] 里尔-加西亚等人[91]
0
71.77
Quet al. [32]
0
76.3
Fan et al. [92] Fan 等人[92]
0
78.3
Zhong et al. [93] Zhong 等人[93]
0
78.35
80.52
79.42
Chu et al. [94] Chu 等人[94]
0
87.06
Ai et al. [88] 艾等人[88]
2
90.7
84.6
87
Fan et al. [95] Fan 等人[95]
2
91.19
94.81
92.44
König et al. [96] 科尼格等人[96]
2
94.92
Fan et al. [97] Fan 等人[97]
2
95.52
95.21
95.33
Lau et al. [40]
2
97.02
94.32
95.55
Fan et al. [24] Fan 等人 [24]
2
96.21
95.12
95.63
Inoue at al. [98] 井上等人[98]
2
95.7
Qiao et al. [99] 乔等人[99]
2
97.29
94.56
95.90
Al-Huda et al. [100] 胡达等人[100]
2
97.9
94.1
96.00
Ong et al. [101] Ong 等人[101]
2
97.89
94.63
96.19
Li等 [102]
2
97.51
95.95
96.72
Liu et al. (FPCNet) [103]
2
97.48
96.39
96.93
König等[42]
2
詹金斯等人 [104]
5
92.46
82.82
87.83
Escolana等[105]
5
因此,图像的缩减采样可能会显著降低分割性能。对于处理高分辨率和大尺寸图像的这个问题,一种常见的解决方案是将它们划分为可以有效处理的块。在本文中,我们选择补丁大小为
像素。每个色块都单独分割,生成的分割图拼接在一起,以生成整个图像的全局分割。
我们将使用基于 König 等人 [42] 提出的编码器-解码器架构的 CNN 作为我们的主要基线,在此基础上我们开发我们的架构和训练策略,从而带来显着的改进。我们建议使用最近的 ConvNext [54] 架构作为网络编码器,并通过实现空间层、通道压缩层和激励层来进一步增强该架构 [87]。我们通过跳过连接来修改一些最后的(即大规模)图层,以便更好地处理图像中的细粒度细节。图 1 描述了整个编码器-解码器 CNN 架构的原理图。
2.1. 架构
对基线模型的体系结构修改涉及其编码器。我们使用 [54] 中提出的 ConvNext 的 'Tiny' 版本作为我们网络中的编码器。ConvNext 由 4 个阶段(级别 3 到 6)组成,由图 1 中的黑色粗箭头表示。在我们的网络中,ConvNext 用于将图像补丁作为输入并生成其特征图,然后将其用作解码器的输入。
图 1:拟议的编码器-解码器网络方案。
我们网络的解码器基于 [42] 中提出的解码器。编码器分为 6 个级别,如图 1 所示。在第 6 级,编码器生成的特征图首先由通道和空间压缩和激励模块 [87] 处理。这个模块通常也被称为注意力模块,因为它将学习到的权重分配给特征图的特定位置和通道,从而在神经网络的后续部分强调它们,换句话说,它有助于关注最相关的信息。
之后,使用最近的邻域方法对加权后的特征图进行空间上采样 2 倍。解码器在级别 6 生成的特征图被传递到解码器的级别 5。在级别 5 时,这些特征图与编码器级别 5 的特征图连接在一起,通道和空间挤压和激励模块应用于该特征图。串联的特征图由核大小的卷积层处理
stride 为 1 可将特征图通道数(连接后增加)减少到级别 5 的解码器特征图的通道数。图 1 中显示了每个级别的解码器和编码器的特征图的尺寸。卷积之后是批量归一化和 ReLU 激活函数。在 channel decrease 操作之后,添加一个 residual block 如图 1 所示。残差块由核大小的卷积层组成
、批量归一化层和 ReLU 激活函数,具有两个短距离跳跃连接。解码器块的详细方案如图 1 所示。
级别 4-3 的解码器操作与级别 5 的解码器操作相同。级别 2 的 decoder 块与前一个相同,唯一的区别是没有与编码器的特征图串联。这样做的原因是,ConvNext 的第一层将输入图像的采样率降低了 4 倍,从而跳过了神经网络的第 2 级。从第 2 级进行上采样后,特征图在解码器的第 1 级达到了输入图像的空间大小。这些特征图与从输入图像生成的特征图连接在一起,无需任何下采样。为了从级别 1 的图像生成特征图,应用了 2 个卷积,内核大小为
,每个函数后跟批量归一化和 ReLU 激活函数。之后,单个
ConvNext 块 [54] 应用了 16 个通道。这样做是为了恢复由于编码器中的下采样操作而可能丢失的最高频率信息。
串联后,
卷积、批量归一化和 ReLU 激活函数应用两次。解码器生成的特征图通过逐点卷积发送,然后是 sigmoid 激活函数,以生成最终的分割图。
2.2. 损失函数
损失函数为神经网络参数的优化提供了一个目标。正确表述的损失函数应该导致对误差的准确估计,神经网络对整个训练和测试示例进行估计。由于与图像的大小相比,裂纹较薄,因此裂纹像素的数量远低于带注释的分割图中的背景像素数量。引入 Dice loss 函数 [41] 来处理这个数据不平衡问题。此外,在 [29] 中,将 BCE 损失添加到 Dice 损失中可以让作者获得性能提升。有趣的是,在 [29] 中还发现,单独的骰子损失会给出非常“清晰”的分割图,其中输出分割图的每个值都接近 0 或 1 。但是 Dice loss 和 BCE loss 之和提供了更平滑的分割图,具有更多的中间值。这允许通过选择阈值来平衡裂纹检测算法的假阳性和假阴性。
Dice 损失和 BCE 损失可以计算如下:
其中 N 是图像中的像素数,
和
是
-第 个像素分别位于真实值和预测的分割图中,它们是输入向量的组成部分
和
跟
和
.这
的添加以避免被零除,并设置为 1 。BCE 损失和 Dice 损失之和通常用作损失函数:
二元交叉熵 (BCE) 损失和 Dice 损失的总和被证明是裂纹分割的良好损失函数 [29]。然而,正如后面在第 3 节中解释的那样,在对钢桥裂缝图像进行神经网络训练期间,我们使用了大量的背景补丁,这些补丁的所有像素都被注释为背景,即
因为
.对于这种情况,BCE 和 Dice loss 之和并不能给出准确的误差估计。由于在我们的工作中,我们使用了大量没有裂纹的图像补丁,因此我们提出了一个损失函数反转的概念,它解决了上述问题,并为裂纹补丁和背景补丁的神经网络训练提供了良好的学习目标。 二元交叉熵 (BCE) 损失和 Dice 损失的总和被证明是裂纹分割的良好损失函数 [29]。然而,正如后面在第 3 节中解释的那样,在对钢桥裂缝图像进行神经网络训练期间,我们使用了大量的背景补丁,这些补丁的所有像素都被注释为背景,即
因为
.对于这种情况,BCE 和 Dice loss 之和并不能给出准确的误差估计。由于在我们的工作中,我们使用了大量没有裂纹的图像补丁,因此我们提出了一个损失函数反转的概念,它解决了上述问题,并为裂纹补丁和背景补丁的神经网络训练提供了良好的学习目标。
对于背景补丁,方程 (2) 中所示的骰子损失函数变为:
因此
与预测的分割图无关
每当
.图像上的可见斑点占用大量像素,因此,在明显的误报分割的情况下,不等式
holds。这意味着对于背景补丁,神经网络的不同预测对骰子损失的值几乎没有影响。唯一的例外是当神经网络将所有像素标记为背景像素时,骰子损失自然等于 0 。
为了解决上述问题并使 Dice 损失对后台补丁上的神经网络错误敏感,我们引入了一个损失函数,其中包含后台补丁的反转:
其中标签反转由
因此
和
,存储在
,其中
是由方程 (3) 定义的损失函数。 其中标签反转由
给出,因此
和
、存储在
中,其中
是由式 (3) 定义的损失函数。(3) 所定义的损失函数。
为了提供对建议的损失函数的解释,我们提供了以下示例。考虑到在神经网络的训练过程中分析了裂缝补丁,即
,我们应用方程 (3) 给出的法向损失函数,该函数估计裂纹分割的损失。相反,当处理后台补丁时,即
),我们在地面实况分割图和预测的分割图中反转 0 -s 和 1 -s。在此倒置分割图中,背景像素标记为 1 ,裂纹像素标记为 0 。因此,倒置损失函数评估的是背景分割器的误差,而不是像裂纹修补情况下那样的裂纹分割器。因此,我们可以避免
如方程 (2) 所示,在骰子损失的分子中,神经网络在分割中所做的错误对损失函数值有合理的影响,因此,给出了背景补丁误差的准确估计。引入的具有反转功能的损失函数允许使用相对大量的背景补丁更好地训练所提出的神经网络,显著降低假阳性率,从而损害神经网络的裂纹分割整体性能。
2.3. 深度监督
采用深度监督 [106] 来改善分割结果。它有助于避免梯度爆炸/消失问题,并在深度网络的中间层学习更稳健和判别性的特征,从而加速神经网络训练并提高其性能。为了遵循深度监督方法,除了解码器最后阶段产生的分割图(目标分割图)外,还会在解码器的第 2-5 级生成额外的分割图(伴随分割图)。为了生成伴随分割图,在 decoder 块中的最后一个激活函数之后,从 2-5 级生成的每个特征图都通过具有单个通道的逐点卷积发送。然后,使用最近的邻域方法将其上采样到输入图像的大小,并由 sigmoid 激活函数进行处理。这些操作在图 1 中用绿色虚线显示。对于每个伴随分割图,损失的计算方式与目标分割图的计算方式相同。因此,当应用深度监督时,总损失函数变为:
哪里
是伴随分割图的数量,
是每个同伴损失的重量,
是一个向量,表示
-th Companion Output Segmentation Map。我们将每个权重设置为 1 。
3. 数据集
在本文中,我们使用了两个数据集:开源的 CrackForest 数据集 (CFD) [43] 和本文本节中描述的我们提出的钢桥裂缝 (CSB) 数据集。CFD 数据集在以前的工作中已广泛用于开发用于裂纹分割的深度学习方法,因此,在 CFD 数据集上进行了实验,以将所提出的算法与早期的裂纹分割方法进行公平的比较。此外,我们还提供了钢桥裂缝 (CSB) 数据集。所提出的深度学习算法和早期算法在这个新颖且具有挑战性的数据集上进行了训练和测试,该数据集与本文一起发布,可以从 [86] 下载。
(a) 图 1
(c) 图 2
(b) 图像 1 的真值注释
(d) 图像 2 的真值注释
图 2:来自 CFD 数据集的图像和真实裂纹分割示例。在整篇论文中,分割图以反转的颜色可视化 - 白色是背景,黑色是裂缝。
3.1.
CrackForest 数据集 (CFD) 是 [43] 中引入的开源数据集。它包含 118 张大小为 480x320 像素的图像,路面有裂缝。这些图像是在北京使用智能手机相机收集的。对于每个图像,通过手动注释创建了一个真实分割图。除了裂缝,图像还捕捉到阴影、油点和水渍。在 [107] 中,定量比较了 CFD 的复杂性和 5 个类似数据集的复杂性。Felzenszwalb 的图分割算法 [108] 识别的许多独立对象被用作定量复杂性估计的基础。根据这种比较,CFD 是最简单的数据集。然而,尽管估计的复杂度较低,但由于裂纹大小的差异和注释的不一致,开发一种能给出准确结果的算法可能具有挑战性。在某些图像中,具有相似外观的细黑线被注释为裂缝,而在某些图像中被注释为背景。来自 CFD 数据集的图像示例如图 2 所示。按照通常的做法 [42, 103, 43],来自 CFD 数据集的图像被分成训练和测试子集,其中包含
和
分别。由于数据集中的图像被列举,类似于 [42],在我们的工作中,从 1 到 72 的图像被用作训练图像,其余的图像被用作测试图像。正如 [42] 中指出的那样,图像编号 42 的真值注释错误,因此,它没有用于实验。
3.2. 钢桥 (CSB) 数据集中的裂缝
CSB 数据集包括 755 张有裂缝的图像和 300 张无裂缝的图像,这些图像是在定期桥梁检查期间收集的。图像具有各种大小,最大值为
像素。根据目视评估估计,它们是以相对于桥梁的不同距离和角度拍摄的,范围从不到 0.5 米到 5 米不等。除了裂纹,还可以看到腐蚀,在某些图像中,腐蚀会在裂纹周围发展并在一定程度上掩盖它。通常,为了检查目的,有意去除裂缝周围腐蚀点的油漆。这些图像包含涂有不同颜色的桥梁,通常还有人工检查员留下的标记,指示裂纹尖端、大小和检查日期。此外,由于这些是使用中的结构的图像,因此存在灰尘、污垢、雨滴溢出、虫子和蜘蛛网。许多图像是使用人造光源拍摄的,以提高能见度。
图像的像素级注释是使用专门为此目的开发的半自动工具[59]进行的,该工具依赖于几何跟踪算法[109],如[59]所述,其实现可在[110]中找到。本文的附录 A 中给出了该算法的摘要。该工具使用手动输入来指示图像上两个裂纹端点的位置。几何跟踪算法使用此输入作为起点和终点,以查找它们之间的裂缝路径。基于此轨迹,裂缝的分割会自动完成。利用此算法可以将每张图像的注释时间从大约 15 分钟减少到不到 1 分钟。但是,这种时间节省的代价是注释准确性降低。在 [59] 中,表明该工具的性能在
手动标注的精度测量方式
-score,请参阅 4.2 。在 [111] 中对注释错误对用于裂纹分割的神经网络的影响进行了复杂的研究。结果表明,
的注释错误最多放弃
神经网络性能下降通过以下方式测量
-得分。在本文的后面,即第 5 节,我们研究了注释错误对神经网络性能的影响,这是由用于注释 CSB 数据集的半自动注释工具实现的。图 3 显示了来自 CSB 数据集的两个示例图像,其中包含地面实况像素级注释。连同 755 张带裂纹的注释图像,我们额外使用了 300 张没有任何裂纹的桥梁图像。所有 1055 张图像都被拆分为测试子集和训练子集,其中包含
和
的图像。CSB 数据集的结构如图 4 所示。此外,来自 CSB 数据集的图像尺寸太大,无法立即由编码器-解码器网络处理。因此,必须将映像拆分为多个补丁,以便进行训练和测试。如图 5 所示,所有图像都被划分为不重叠的补丁,用于训练和测试第 2 节中介绍的神经网络。 图像的像素级注释是使用专门为此目的开发的半自动工具[59]进行的,该工具依赖于几何跟踪算法[109],如[59]所述,其实现可在[110]中找到。本文的附录 A 中给出了该算法的摘要。该工具使用手动输入来指示图像上两个裂纹端点的位置。几何跟踪算法使用此输入作为起点和终点,以查找它们之间的裂缝路径。基于此轨迹,裂缝的分割会自动完成。利用此算法可以将每张图像的注释时间从大约 15 分钟减少到不到 1 分钟。但是,这种时间节省的代价是注释准确性降低。在 [59] 中,表明该工具的性能在
手动标注的精度测量方式
-score,请参阅 4.2 。在 [111] 中对注释错误对用于裂纹分割的神经网络的影响进行了复杂的研究。结果表明,
的注释错误最多放弃
神经网络性能下降通过以下方式测量
-得分。在本文的后面,即第 5 节,我们研究了注释错误对神经网络性能的影响,这是由用于注释 CSB 数据集的半自动注释工具实现的。图 3 显示了来自 CSB 数据集的两个示例图像,其中包含地面实况像素级注释。连同 755 张带裂纹的注释图像,我们额外使用了 300 张没有任何裂纹的桥梁图像。所有 1055 张图像都被拆分为测试子集和训练子集,其中包含
和
的图像。CSB 数据集的结构如图 4 所示。此外,来自 CSB 数据集的图像尺寸太大,无法立即由编码器-解码器网络处理。因此,必须将映像拆分为多个补丁,以便进行训练和测试。如图 5 所示,所有图像都被划分为不重叠的补丁,用于训练和测试第 2 节中介绍的神经网络。
由于裂纹像素的数量与图像的像素数量相比要小得多,因此只有 3950 个色块 (
) 包含裂纹像素,而其余 57276 (
) 仅包含背景像素。这个补丁不平衡问题可以在图 5 中看到,其中
pixels 被分割成大小不一的块
63 个补丁中只有 5 个,大约是
,包含裂缝。具有此类不平衡的数据集会导致优化空间中的局部最小值。因此,神经网络学会了忽略任何图像中的裂缝。我们发现
自
的 crack-to-background 补丁允许我们避免这个问题。因此,从 CSB 数据集中,我们生成了 CSB 70/30 数据集。它由 1400 个随机选择的裂纹补丁和 600 个随机选择的背景补丁组成,这些补丁取自 CSB 数据集的图像。从 CSB 数据集的训练图像中获取的补丁被分配给 CSB 70/30 补丁数据集的训练子集,从 CSB 数据集的测试图像中获取的补丁被分配给 CSB 70/30 补丁数据集的测试子集。此外,CSB 70/30 数据集的测试和训练子集中的裂纹补丁数量与背景补丁的比率也是
.CSB 70/30 数据集的结构及其与 CSB 数据集的关系如图 4 所示。由于用于生成注释的工具提供的分割存在一些错误,因此 1260 个裂纹序列补丁和 140 个裂纹测试补丁的注释被手动更正。
我们生成了更多具有不同裂纹与背景补丁比率的数据集,以研究训练数据集中裂纹补丁与背景补丁之间的比率对在整个 CSB 数据集上测试的神经网络性能的影响。表 4 总结了本研究中使用的钢桥图像数据集。为了生成 CSB 30/70 数据集,我们采用 CSB 70/30 数据集并向其添加新的随机背景补丁,从而将背景补丁的比例增加到
.图 4 描述了这个想法。为了生成 CSB 10/90 数据集,我们将随机背景补丁添加到 CSB 30/70 数据集中。
4. 实验 4.实验
为了研究第 3.2 节中提出的数据不平衡问题,所提出的反演损失函数的有效性,参见第 2.2 节,以及由于使用自动注释工具而导致的注释错误的影响 [59])
(a) 图 1
(c) 图 2
(b) 图像 1 的真值注释
(d) 图像 2 的真值注释
图 3:来自 CSB 数据集的图像和真值裂纹分割示例。
表 4:CSB 数据集及其衍生物的补丁组成。每个数据集都以 10/90 的比率拆分为测试子集和训练子集。
数据
裂纹补丁的数量/百分比
后台补丁的数量/百分比
CSB 公司
CSB 70/30 型
CSB 30/70 型
CSB 10/90 型