EDformer:基于变压器的不同噪声级事件去噪技术
和詹
Ma
1
+
+
0
Ma
1
+
+
0
Ma^(1+)^(+0) \mathrm{Ma}^{1+}{ }^{+0}
1
1
^(1) { }^{1} 南京大学电子科学与工程学院
2
2
^(2) { }^{2} 北京大学计算机学院
3
3
^(3) { }^{3} 加州大学河滨分校电气与计算机工程系
4
4
^(4) { }^{4} 南京大学医学院 {mazhan,zhouyou}@nju.edu.cn
摘要
目前,对不同亮度条件下事件摄像机背景活动噪声的研究相对有限,相关的真实世界数据集也极为稀少。这一局限性导致现有的事件去噪算法在实际应用中缺乏鲁棒性。本文通过收集和分析 DAVIS346 事件摄像机在不同光照条件下的背景活动噪声,填补了这一空白。我们介绍了首个真实世界事件去噪数据集 ED24,其中包含 21 种噪声级别和噪声注释。此外,我们还提出了基于变压器的逐事件去噪创新模型 EDformer。该模型通过学习不同噪声水平下事件间的时空相关性,在事件去噪方面表现出色。与现有的去噪算法相比,所提出的 EDformer 在去噪精度方面达到了最先进的水平,包括开源数据集和在实际场景中捕获的低光强要求的数据集,如斑马鱼血管成像。
关键词事件摄像机 - 背景活动噪声 - 去噪 - 时空相关性
1 引言
事件摄像机通过异步输出事件来捕捉场景的运动或亮度变化,从而模仿人类的视觉感知,与传统摄像机相比,具有更高的时间分辨率、更低的功耗和更宽的动态范围,因此非常适合高速和高动态范围的场景12。
事件相机的输出通常包含各种类型的噪声,主要包括光子射出噪声、暗电流射出噪声、漏电流噪声和热像素噪声 (14)。光子射出噪声 21]产生于量子
光子的性质,而暗电流射出噪声 27 则是由暗光条件下随机漂移的暗电流对像素电路电压变化的影响造成的。泄漏电流噪声 26 是由于温度变化和寄生光电流对像素电路的影响,而热像素噪声 18 则是由阈值异常低或暗电流异常高的复位开关引起的。这四种噪声统称为背景活动(BA)噪声。即使在没有任何场景运动和亮度变化的情况下,这些噪声事件也会持续存在,因此被归类为与信号无关的噪声,即非信息噪声[15]。在昏暗的照明条件下,BA 噪声会主导事件相机的输出,严重影响成像质量。
根据去噪方法的不同,可分为基于时间间隔的方法、基于事件密度的方法、基于图像滤波的方法、基于光流的方法和基于学习的方法。基于时间间隔的方法
7
,
16
,
19
7
,
16
,
19
7,16,19 7,16,19 通过利用触发事件之间的时间间隔来区分噪声。基于事件密度的方法 [6, 11, 15, 20, 34, 35] 通过利用指定时空范围内的事件密度或考虑时空距离来区分噪声。基于图像过滤的方法[1,5,28] 将事件序列转换为图像,然后应用图像过滤。基于光流的方法
99
,
24
,
25
,
32
,
33
99
,
24
,
25
,
32
,
33
99,24,25,32,33 99,24,25,32,33 利用事件的运动连续性来识别噪声。而基于学习的方法 [2,3,10] 则通过学习事件的特征来区分噪声。
然而,基于时间间隔和事件密度的方法严重依赖于人工制作的阈值参数,因此无法对噪声率不同的事件信号进行自适应去噪。基于图像滤波的方法只能去除图像层面的噪声,无法捕捉去噪后的原始事件序列。基于光流的方法计算复杂度高,而且光流估计容易受到异常值的影响。目前,基于学习的方法将事件序列转换为时间表面或事件图像,用于模型训练。与按事件操作的传统算法相比,这些基于学习的方法牺牲了原始事件序列的时间粒度。此外,由于去噪数据集的稀缺,基于学习的方法在面对来自不同场景和噪声率的事件信号时,表现出不稳定的去噪性能。
针对现有去噪方法中存在的上述挑战,我们的研究动机有两个方面。首先,我们希望所提出的去噪模型能在不同的 BA 噪声率中表现出通用性。其次,我们的目标是直接对原始事件序列进行去噪,保留其完整的时空粒度,以获得最佳的去噪精度。为了实现这些目标,如图 1 所示,我们提出了带注释的去噪数据集 ED24,并引入了一种基于变压器的创新事件去噪模型 EDformer。我们工作的主要贡献如下:
我们使用光学仪器从 DAVIS346 事件相机中捕捉纯 BA 噪声,在各种光照条件下进行统计分析,并推出首个带注释的真实世界去噪数据集 ED24、
图 1:我们工作的整体示意图。左侧是 ED24 数据集,包含 100 个不同的场景,每个场景都有 21 种不同的噪声级别,并附有噪声注释,适合按事件进行去噪模型训练。右侧是使用我们提出的 EDformer 模型对不同噪声水平的事件序列进行去噪的过程。红色/蓝色表示正极性/负极性事件。 包括 21 个噪声级别。该数据集有效解决了当前事件去噪训练集的不足。
我们介绍了 EDformer,这是一种基于变换器的去噪模型,它通过逐个事件学习时空相关性来对事件进行去噪分类。在实验部分,我们使用 AUC 和 MESR 等评估指标对 EDformer 和其他去噪方法进行了比较。此外,我们还在显微镜场景中进行了可视化比较。实验结果表明,我们的 EDformer 在事件去噪方面表现出色。
2 噪音分析
要设计有效的 BA 去噪算法,了解 BA 噪声的真正特征至关重要。之前的研究 [15] 将 BA 噪声视为固定模式噪声,认为在相对低照度条件下(未指定特定照度),BA 噪声近似服从对数正态分布。然而,他们仍有两个问题没有解决:1)在不同的光照条件下,BA 噪声是如何分布的?2) 在特定光照条件下,多种类型的噪声共存时应如何建模?
2.1 统计建模
为了研究上述两个问题,如图 2 所示,我们使用了倒置显微镜[31]和 DAVIS346 事件相机 23]来捕捉不同照明条件下的纯 BA 噪声。倒置显微镜的光源保持恒定的强度。我们通过在光源前添加衰减器并控制衰减器的电压来调节照明度。不同电压下的照度是用一个
图 2:通过定量调整照度收集 BA 噪音。 光度计。采集过程中,衰减器的电压控制在 0.0 至 4.0 之间,电压增量为 0.1。该电压范围对应的照度范围为 36.79 至 0.15 勒克斯,电压越高,照度越低。由于光源强度恒定、没有外部光干扰以及 DAVIS346 处于静止状态,因此收集到的事件均为纯 BA 噪声。
图 3 展示了我们在不同光照条件下对 BA 噪声进行统计建模的部分结果,完整结果见附录 E。这包括计算每个像素位置上连续触发事件之间的时间间隔,然后将其转换为对数频率。在图 3 的第一列中,衰减器电压为 0.0 V,对应照度为 36.79 勒克斯。在这种情况下,低频范围(频率小于 1 Hz)主要被正极性事件占据。根据
[
22
[
22
[22 [22 ,这些正极性事件被识别为泄漏电流噪声,呈现右斜对数正态分布。在图 3 的其余栏中,衰减器电压范围为 1.1 V 至 2.5 V,对应的照度范围为 7.13 lux 至 0.35 lux。在这一范围内,照度的降低导致中频噪声(频率大于 1 Hz,小于 10 Hz)的逐渐出现,其中既有正极性事件,也有负极性事件。这些事件的平均频率随着光照度的降低而增加,最终在极弱光照条件下盛行。这表明这些噪声事件是暗电流脉冲噪声 27],呈对数正态分布。热像素噪声在任何光照条件下都会存在,主要集中在高频范围(频率大于 10 Hz),而且热像素噪声的数量会随着光照度的降低而逐渐增加。由于噪声成分的多样性和复杂性,图 3 中的高斯混合拟合结果只能粗略说明 BA 噪声在不同频率范围内的成分及其随光照度降低而变化的情况。 分析 BA 噪声的变化可以发现,在任何光照水平下,BA 噪声都由各种噪声成分组成,频率跨度跨越四个数量级。
图 3:第一行描述了五种光照条件下所有 BA 噪声的对数频率概率密度,采用混合高斯分布拟合。黑色背景显示的是在 33 毫秒内收集到的纯 BA 噪声,其中红点表示正极性噪声,蓝点表示负极性噪声。第二行和第三行分别表示正极性和负极性 BA 噪声的对数频率概率密度。
表 1:公共事件去噪数据集比较
2.2 创建数据集
以前的工作 15 使用对数正态分布来模拟 BA 噪声。然而,在现实中,不同光照条件下 BA 噪声的分布变化很大,无法用单一分布参数进行充分模拟。鉴于模拟噪声与真实世界噪声之间的差异,我们直接将收集到的纯 BA 噪声纳入无噪声事件序列,创建了去噪模型训练所需的 ED24 数据集。
具体来说,我们使用倒置显微镜和 DAVIS346 事件相机分别捕捉了 21 种不同照明条件下的纯 BA 噪声,衰减器电压从 1.5 V 到 3.5 V 不等(1.5 V 以下 BA 噪声过于稀疏,3.5 V 以上噪声分布接近均匀)。每种照明条件记录一分钟。随后,我们随机 根据无噪音事件序列的时间戳,对相应持续时间的 BA 噪音进行采样。然后,将采样噪声与无噪声事件合并,并根据时间戳对合并事件重新排序。值得注意的是,无噪声事件序列是使用 DAVIS346 事件摄像机在光线充足的条件下捕捉 100 个室内和室外场景生成的。由于亮度充足,BA 噪声的频率很低,而且非常稀疏,因此可以使用简单的 BAF 算法[7]将其完全去除。在实验中,我们将 BAF 的时间间隔阈值设为 1 ms。如表 1 所示。ED24 数据集是第一个有注释的真实世界事件去噪数据集,包含 21 种噪声水平。有关 ED24 数据集的其他详细信息,请参阅附录 D。
实际上,我们构建去噪数据集 ED24 的方法有两个潜在的局限性:1) 由于单位时间内光子数量的变化,弱光条件下的有效事件往往比光照充足条件下的事件稀少。因此,将光线充足条件下采集的无噪声数据与弱光条件下的 BA 噪声直接合并,可能无法准确反映真实世界的情况。2)我们的噪声捕获仅限于不同亮度条件下的 DAVIS346,不同传感器之间可能存在差异。为了解决这些问题,我们未来的工作将探索亮度与有效事件稀疏度之间的关系。此外,我们还计划将其他事件相机的噪声模式整合到数据集中。尽管如此,目前的 ED24 数据集已经足以让神经网络模型学习有效事件与 BA 噪声之间相关性的时空差异。具体的去噪性能将在实验部分进行讨论和分析。
3 去噪模型
3.1 问题定义
根据事件摄像机的像素电路 [22, 30],当光信号
L
L
L L 入射到光电传感器时,会转换成电流
I
=
I
p
+
I
dark
(
I
p
∝
L
)
I
=
I
p
+
I
dark
I
p
∝
L
I=I_(p)+I_("dark ")(I_(p)prop L) I=I_{p}+I_{\text {dark }}\left(I_{p} \propto L\right) ,其中
I
p
I
p
I_(p) I_{p} 是光电流,
I
dark
I
dark
I_("dark ") I_{\text {dark }} 是暗电流。随后,电流
I
I
I I 通过反馈二极管进行对数变换,产生电压
V
p
V
p
V_(p) V_{p} 。之后,它被进一步放大为电压变化
Δ
V
d
(
t
)
Δ
V
d
(
t
)
DeltaV_(d)(t) \Delta V_{d}(t) 。电压变化值还受到不可避免的结漏电流的影响。当电压变化
Δ
V
d
(
t
)
Δ
V
d
(
t
)
DeltaV_(d)(t) \Delta V_{d}(t) 达到正阈值
−
θ
O
N
−
θ
O
N
-theta_(ON) -\theta_{O N} 或负阈值
θ
O
F
F
θ
O
F
F
theta_(OFF) \theta_{O F F} 时,就会触发事件:
{
Δ
V
d
(
t
)
≤
−
θ
O
N
ON event
Δ
V
d
(
t
)
≥
θ
O
F
F
OFF event
−
θ
O
N
<
Δ
V
d
(
t
)
<
θ
O
F
F
No event
Δ
V
d
(
t
)
≤
−
θ
O
N
ON event
Δ
V
d
(
t
)
≥
θ
O
F
F
OFF event
−
θ
O
N
<
Δ
V
d
(
t
)
<
θ
O
F
F
No event
{[DeltaV_(d)(t) <= -theta_(ON)," ON event "],[DeltaV_(d)(t) >= theta_(OFF)," OFF event "],[-theta_(ON) < DeltaV_(d)(t) < theta_(OFF)," No event "]:} \begin{cases}\Delta V_{d}(t) \leq-\theta_{O N} & \text { ON event } \\ \Delta V_{d}(t) \geq \theta_{O F F} & \text { OFF event } \\ -\theta_{O N}<\Delta V_{d}(t)<\theta_{O F F} & \text { No event }\end{cases}
这一过程会产生一系列
N
N
N N 事件,正式表示为
E
=
{
e
i
}
i
=
1
N
E
=
e
i
i
=
1
N
E={e_(i)}_(i=1)^(N) \mathbf{E}=\left\{\boldsymbol{e}_{i}\right\}_{i=1}^{N} 。每个事件
e
i
=
{
u
i
,
p
i
,
t
i
}
e
i
=
u
i
,
p
i
,
t
i
e_(i)={u_(i),p_(i),t_(i)} \boldsymbol{e}_{i}=\left\{\boldsymbol{u}_{i}, p_{i}, t_{i}\right\} 都是记录像素位置
u
i
=
(
x
i
,
y
i
)
u
i
=
x
i
,
y
i
u_(i)=(x_(i),y_(i)) \boldsymbol{u}_{i}=\left(x_{i}, y_{i}\right) 的元组、
图 4:左侧展示了 EDformer 的流水线,包括大/小尺度分支和注意力特征融合模块。每个分支包括时空嵌入和三向注意力模块。来自大/小尺度分支的注意力特征
F
a
t
t
n
L
F
a
t
t
n
L
F_(attn)^(L) \mathbf{F}_{a t t n}^{L} 和
F
a
t
t
n
S
F
a
t
t
n
S
F_(attn)^(S) \mathbf{F}_{a t t n}^{S} 通过注意力特征融合模块进行融合,从而得到事件分类结果
F
out
F
out
F_("out ") \mathbf{F}_{\text {out }} 。右侧介绍了时空嵌入和三向注意力模块的关键计算步骤。 事件发生的位置、极性
p
i
∈
{
−
1
,
1
}
p
i
∈
{
−
1
,
1
}
p_(i)in{-1,1} p_{i} \in\{-1,1\} 和时间戳
t
i
.
p
i
t
i
.
p
i
t_(i).p_(i) t_{i} . p_{i} 表示像素亮度的增减。
由于事件相机以事件的形式输出有效信号和噪声,因此直接进行区分极具挑战性。然而,有效事件的产生通常与物体运动引起的亮度变化有关,具有密集和连续的模式特征。另一方面,BA 噪声的产生是随机的,在时空维度上,与有效事件相比,它往往更加稀疏和不规则。换句话说,有效事件和 BA 噪声的区别在于它们的时空特征。因此,我们提出的 EDformer 可以通过逐个事件计算时空相关性来区分有效事件和固定模式噪声,将去噪任务视为一个事件分类问题。
3.2 网络结构
如图 4 所示,EDformer 根据时间戳顺序将整个事件序列分割成多个片段,每个片段包含
N
N
N N 个事件,并为每个片段提供二元分类结果。该模型由三个主要模块组成:大规模分支、小规模分支和注意力特征融合。大尺度和小尺度分支负责事件序列中不同时间尺度的事件特征提取和时空相关性计算。注意力特征融合模块旨在整合来自不同时间尺度的事件特征,最终生成最终分类结果。
时空嵌入 对于
N
N
N N 输入事件
E
=
{
e
i
}
i
=
1
N
E
=
e
i
i
=
1
N
E={e_(i)}_(i=1)^(N) \mathbf{E}=\left\{\boldsymbol{e}_{i}\right\}_{i=1}^{N} ,时空嵌入模块会根据事件的像素坐标和时间戳信息在空间和时间维度上执行特征提取。在空间维度上,
N
N
N N 事件根据其极性和像素坐标被堆叠成事件图像的正极性和负极性通道。这些通道记录了每个像素位置上正负极性事件的数量。随后,考虑到事件的稀疏性,我们采用稀疏卷积 13 来提取像素位置的空间特征,从而得到
N
N
N N 空间嵌入向量
F
s
p
F
s
p
F_(sp) \mathbf{F}_{s p} 。只有当像素位于卷积核中心时才会计算卷积,堆叠在同一像素位置的事件共享卷积结果。在时间维度上,
N
N
N N 事件使用两个对角矩阵对正负极性进行过滤。然后,将正极性和负极性事件的时间戳分别输入两个不同的 MLP,以计算
N
N
N N 事件的时间嵌入张量
F
t
e
F
t
e
F_(te) \mathbf{F}_{t e} 。因此,我们将
F
s
p
F
s
p
F_(sp) \mathbf{F}_{s p} 和
F
t
e
F
t
e
F_(te) \mathbf{F}_{t e} 连接起来,并将它们降维为时空嵌入向量
F
=
MLP
(
Concat
(
F
s
p
,
F
t
e
)
)
F
=
MLP
Concat
F
s
p
,
F
t
e
F=MLP(Concat(F_(sp),F_(te))) \mathbf{F}=\operatorname{MLP}\left(\operatorname{Concat}\left(\mathbf{F}_{s p}, \mathbf{F}_{t e}\right)\right) ,其中时空嵌入向量
f
i
f
i
f_(i) \boldsymbol{f}_{i} 的索引与事件
e
i
e
i
e_(i) \boldsymbol{e}_{i} 的索引一一对应。
事件位置编码 与点云类似,事件序列也可理解为不规则嵌入度量空间中的集合,其中组成元素的属性与时空信息有关。H. Zhao 等人 37]介绍了如何利用矢量注意力来处理这种不规则嵌入度量空间中的集合,从而确立了明智实施位置编码的重要意义。其数学表述如下:
a
t
t
n
i
=
∑
f
j
∈
χ
(
i
)
ρ
(
γ
(
φ
(
f
i
)
−
ψ
(
f
j
)
+
δ
)
)
⊙
(
α
(
f
j
)
+
δ
)
a
t
t
n
i
=
∑
f
j
∈
χ
(
i
)
ρ
γ
φ
f
i
−
ψ
f
j
+
δ
⊙
α
f
j
+
δ
attn_(i)=sum_(f_(j)in chi(i))rho(gamma(varphi(f_(i))-psi(f_(j))+delta))o.(alpha(f_(j))+delta) \boldsymbol{\operatorname { a t t n }}_{i}=\sum_{\boldsymbol{f}_{j} \in \chi(i)} \rho\left(\gamma\left(\varphi\left(\boldsymbol{f}_{i}\right)-\psi\left(\boldsymbol{f}_{j}\right)+\delta\right)\right) \odot\left(\alpha\left(\boldsymbol{f}_{j}\right)+\delta\right)
其中,
f
i
f
i
f_(i) \boldsymbol{f}_{i} 是输入嵌入向量,
⊙
⊙
o. \odot 表示哈达玛乘积。子集
χ
(
i
)
⊆
χ
χ
(
i
)
⊆
χ
chi(i)sube chi \chi(i) \subseteq \chi 是
f
i
.
φ
,
ψ
f
i
.
φ
,
ψ
f_(i).varphi,psi \boldsymbol{f}_{i} . \varphi, \psi 选定邻域内的向量集,
α
α
alpha \alpha 是特征变换,如稀疏卷积或 MLP。
ρ
ρ
rho \rho 是归一化函数,如 softmax,
γ
γ
gamma \gamma 是映射函数(如 MLP),可产生用于特征聚合的注意力向量。
δ
δ
delta \delta 是位置编码函数。由于我们的时空嵌入模块已在嵌入向量和事件之间建立了基于其指数的一一对应关系,因此在后续计算中,公式 (2) 中的
f
i
f
i
f_(i) \boldsymbol{f}_{i} 和
f
j
f
j
f_(j) \boldsymbol{f}_{j} 可根据
e
i
e
i
e_(i) \boldsymbol{e}_{i} 和
e
j
e
j
e_(j) \boldsymbol{e}_{j} 的指数得到。
根据公式 (2),我们为事件序列设计了三个变换器层。与 37] 中仅针对局部上下文的位置编码方法不同,我们提出的 LXformer、SCformer 和 GXformer 同时考虑了事件位置编码的局部和全局时空信息,从而增强了对事件序列内在结构的理解,实现了有效的事件分类。
首先,运动的连续性在时空维度上建立了局部事件之间的密切关联。为了构建相邻事件之间的时空相关性,我们在 LXfomer 中采用了 K-nearest neighbors(KNN)来执行局部位置编码:
δ
i
j
l
o
c
=
MLP
(
(
x
i
−
x
j
l
o
c
)
2
+
(
y
i
−
y
j
l
o
c
)
2
+
(
t
i
−
t
j
l
o
c
)
2
)
δ
i
j
l
o
c
=
MLP
x
i
−
x
j
l
o
c
2
+
y
i
−
y
j
l
o
c
2
+
t
i
−
t
j
l
o
c
2
delta_(ij)^(loc)=MLP(sqrt((x_(i)-x_(j)^(loc))^(2)+(y_(i)-y_(j)^(loc))^(2)+(t_(i)-t_(j)^(loc))^(2))) \delta_{i j}^{l o c}=\operatorname{MLP}\left(\sqrt{\left(x_{i}-x_{j}^{l o c}\right)^{2}+\left(y_{i}-y_{j}^{l o c}\right)^{2}+\left(t_{i}-t_{j}^{l o c}\right)^{2}}\right)
其中
x
i
,
y
i
,
t
i
x
i
,
y
i
,
t
i
x_(i),y_(i),t_(i) x_{i}, y_{i}, t_{i} 是事件
e
i
e
i
e_(i) \boldsymbol{e}_{i} 的坐标和时间戳,而
x
j
l
o
c
,
y
j
l
o
c
,
t
j
l
o
c
x
j
l
o
c
,
y
j
l
o
c
,
t
j
l
o
c
x_(j)^(loc),y_(j)^(loc),t_(j)^(loc) x_{j}^{l o c}, y_{j}^{l o c}, t_{j}^{l o c} 是事件
e
j
l
o
c
e
j
l
o
c
e_(j)^(loc) \boldsymbol{e}_{j}^{l o c} 的坐标和时间戳,后者是距离
e
i
e
i
e_(i) \boldsymbol{e}_{i} 最近的
k
l
k
l
k_(l) k_{l} 事件之一。值得注意的是,LXformer 计算出的自我关注权重
a
t
t
n
i
l
o
c
a
t
t
n
i
l
o
c
attn_(i)^(loc) \mathbf{a t t n}_{i}^{l o c} 代表了事件之间的局部时空相关性。这种计算方法与基于事件密度的去噪算法类似,都是通过检查局部时空范围内的事件特征来去除噪声。
随后,为了进一步阐明事件的 XY 维相关性,我们利用球查询算法 29] 检索每个事件
e
i
e
i
e_(i) \boldsymbol{e}_{i} 的
m
×
m
m
×
m
m xx m m \times m 局部窗口内的
k
s
c
k
s
c
k_(sc) k_{s c} 事件
{
e
j
s
c
}
j
=
1
k
s
c
e
j
s
c
j
=
1
k
s
c
{e_(j)^(sc)}_(j=1)^(k_(sc)) \left\{\boldsymbol{e}_{j}^{s c}\right\}_{j=1}^{k_{s c}} ,在 SCfomer 中执行稀疏卷积位置编码:
δ
i
j
s
c
=
MLP
(
(
x
i
−
x
j
s
c
)
2
+
(
y
i
−
y
j
s
c
)
2
)
δ
i
j
s
c
=
MLP
x
i
−
x
j
s
c
2
+
y
i
−
y
j
s
c
2
delta_(ij)^(sc)=MLP(sqrt((x_(i)-x_(j)^(sc))^(2)+(y_(i)-y_(j)^(sc))^(2))) \delta_{i j}^{s c}=\operatorname{MLP}\left(\sqrt{\left(x_{i}-x_{j}^{s c}\right)^{2}+\left(y_{i}-y_{j}^{s c}\right)^{2}}\right)
其中
x
j
s
c
,
y
j
s
c
x
j
s
c
,
y
j
s
c
x_(j)^(sc),y_(j)^(sc) x_{j}^{s c}, y_{j}^{s c} 是事件
e
j
s
c
e
j
s
c
e_(j)^(sc) \boldsymbol{e}_{j}^{s c} 的坐标。SCformer 计算出的自我关注权重
a
t
t
n
i
s
c
a
t
t
n
i
s
c
attn_(i)^(sc) \boldsymbol{a t t n}_{i}^{s c} 表示事件之间在 XY 维度上的局部空间相关性,这与基于图像滤波的去噪方法极为相似。
事件之间的总体时空相关性有助于全面把握整个事件序列的运动趋势,这对于高级视觉任务来说是一个关键的考虑因素。为了有效地提取全局时空相关性,我们采用了比率为
r
r
r r 的子采样,对最远的事件进行向下采样,以选取具有代表性的事件
E
^
E
^
hat(E) \hat{\mathbf{E}} ,其对应的嵌入向量表示为
F
^
F
^
hat(F) \hat{\mathbf{F}} ,然后利用 KNN 选取
k
g
k
g
k_(g) k_{g} 事件
{
e
j
g
}
j
=
1
k
g
∈
E
^
e
j
g
j
=
1
k
g
∈
E
^
{e_(j)^(g)}_(j=1)^(k_(g))in hat(E) \left\{\boldsymbol{e}_{j}^{g}\right\}_{j=1}^{k_{g}} \in \hat{\mathbf{E}} ,在 GXfomer 中执行全局位置编码:
δ
i
j
g
=
MLP
(
(
x
i
−
x
j
g
)
2
+
(
y
i
−
y
j
g
)
2
+
(
t
i
−
t
j
g
)
2
)
δ
i
j
g
=
MLP
x
i
−
x
j
g
2
+
y
i
−
y
j
g
2
+
t
i
−
t
j
g
2
delta_(ij)^(g)=MLP(sqrt((x_(i)-x_(j)^(g))^(2)+(y_(i)-y_(j)^(g))^(2)+(t_(i)-t_(j)^(g))^(2))) \delta_{i j}^{g}=\operatorname{MLP}\left(\sqrt{\left(x_{i}-x_{j}^{g}\right)^{2}+\left(y_{i}-y_{j}^{g}\right)^{2}+\left(t_{i}-t_{j}^{g}\right)^{2}}\right)
其中
x
j
g
,
y
j
g
,
t
j
g
x
j
g
,
y
j
g
,
t
j
g
x_(j)^(g),y_(j)^(g),t_(j)^(g) x_{j}^{g}, y_{j}^{g}, t_{j}^{g} 是事件
e
j
g
e
j
g
e_(j)^(g) \boldsymbol{e}_{j}^{g} 的坐标和时间戳。具体来说,计算全局注意力
a
t
t
n
i
g
a
t
t
n
i
g
attn_(i)^(g) \mathbf{a t t n}_{i}^{g} 时使用的嵌入向量
f
j
f
j
f_(j) \boldsymbol{f}_{j} 从
f
j
=
max
e
r
∈
E
r
(
MLP
(
Concat
(
e
r
,
f
r
)
)
f
j
=
max
e
r
∈
E
r
MLP
Concat
e
r
,
f
r
f_(j)=max_(e_(r)inE_(r))(MLP(Concat(e_(r),f_(r))):} \boldsymbol{f}_{j}=\max _{\boldsymbol{e}_{r} \in \mathbf{E}_{r}}\left(\operatorname{MLP}\left(\operatorname{Concat}\left(\boldsymbol{e}_{r}, \boldsymbol{f}_{r}\right)\right)\right. 中采样,其中
E
r
E
r
E_(r) \mathbf{E}_{r} 是
⌊
1
r
⌋
1
r
|__(1)/(r)__| \left\lfloor\frac{1}{r}\right\rfloor 最近事件的集合,
e
g
,
f
r
e
g
,
f
r
e_(g),f_(r) e_{g}, \boldsymbol{f}_{r} 是
e
r
e
r
e_(r) \boldsymbol{e}_{r} 的相应嵌入向量。
最后,我们将局部时空注意力
a
t
t
n
i
l
o
c
a
t
t
n
i
l
o
c
attn_(i)^(loc) \mathbf{a t t n}_{i}^{l o c} 、局部空间注意力
a
t
t
n
i
s
c
a
t
t
n
i
s
c
attn_(i)^(sc) \boldsymbol{a t t n}_{i}^{s c} 和全局时空注意力
a
t
t
n
i
g
a
t
t
n
i
g
attn_(i)^(g) \boldsymbol{a t t n}_{i}^{g} 合并,并通过 MLP 得到三个转换层的融合注意力:
a
t
t
n
i
=
MLP
(
Concat
(
a
t
t
n
i
l
o
c
,
t
a
t
n
i
s
c
,
a
t
t
n
i
g
)
)
a
t
t
n
i
=
MLP
Concat
a
t
t
n
i
l
o
c
,
t
a
t
n
i
s
c
,
a
t
t
n
i
g
attn_(i)=MLP(" Concat "(attn_(i)^(loc),tatn_(i)^(sc),attn_(i)^(g))) \boldsymbol{\operatorname { a t t n }}_{i}=\operatorname{MLP}\left(\text { Concat }\left(\mathbf{a t t n}_{i}^{l o c}, \boldsymbol{\operatorname { t a t n }}_{i}^{s c}, \boldsymbol{\operatorname { a t t n }}_{i}^{g}\right)\right)
需要强调的是,融合注意力的索引
a
t
t
n
i
a
t
t
n
i
attn_(i) \mathbf{a t t n}_{i} 与事件的索引
e
i
e
i
e_(i) \boldsymbol{e}_{i} 也是一一对应的,所有事件的注意力特征都用
F
attn
=
{
a
t
t
n
i
}
i
=
1
N
F
attn
=
a
t
t
n
i
i
=
1
N
F_("attn ")={attn_(i)}_(i=1)^(N) \mathbf{F}_{\text {attn }}=\left\{\boldsymbol{a t t n}_{i}\right\}_{i=1}^{N} 表示。
注意力特征融合 考虑到即使是同一事件,两个尺度分支的注意力特征也可能不同,从而进一步影响分类结果
F
out
F
out
F_("out ") \mathbf{F}_{\text {out }} 。因此,我们设计了一个简单高效的注意力特征融合模块,以全面考虑同一事件在不同尺度上的情况:
F
out
=
MLP
(
softmax
(
MLP
(
F
′
)
)
⊙
F
′
)
F
out
=
MLP
softmax
MLP
F
′
⊙
F
′
F_("out ")=MLP(softmax(MLP(F^(')))o.F^(')) \mathbf{F}_{\text {out }}=\operatorname{MLP}\left(\operatorname{softmax}\left(\operatorname{MLP}\left(\mathbf{F}^{\prime}\right)\right) \odot \mathbf{F}^{\prime}\right)
其中,
F
′
=
MLP
(
F
attn
L
)
+
MLP
(
F
attn
S
)
F
′
=
MLP
F
attn
L
+
MLP
F
attn
S
F^(')=MLP(F_("attn ")^(L))+MLP(F_("attn ")^(S)) \mathbf{F}^{\prime}=\operatorname{MLP}\left(\mathbf{F}_{\text {attn }}^{L}\right)+\operatorname{MLP}\left(\mathbf{F}_{\text {attn }}^{S}\right) 、
F
attn
L
F
attn
L
F_("attn ")^(L) \mathbf{F}_{\text {attn }}^{L} 和
F
attn
S
F
attn
S
F_("attn ")^(S) \mathbf{F}_{\text {attn }}^{S} 分别是大尺度和小尺度分支的注意力特征。合并后的张量
F
′
F
′
F^(') \mathbf{F}^{\prime} 通过 MLP 进行变换映射。随后,softmax 函数会产生一组反映单个元素重要性的权重。这些权重将通过张量乘法进行加权求和,从而促进特征的合并,并在最终输出中突出相关成分。
4 项实验
4.1 数据集和指标
目前,基于事件去噪的公开数据集主要包括 DVSNOISE20 [3]、RGBDAVIS 9]、ENFS [10]、DND21 [15]、E-MLB [8]。其中,只有 DND21 具有事件噪声注释,可用于训练基于事件分类的去噪模型。然而,DND21 的数据量非常小,而且是通过 v2e 仿真 17 获得的。它的时空分布与真实世界的事件序列不同,导致训练模型的去噪效果不能很好地适用于真实数据。为此,我们创建了一个包含噪声注释的真实世界数据集 ED24,用于训练我们提出的 EDformer 去噪模型。然后在其他公共去噪数据集上测试训练模型的去噪性能。
事件去噪的主流评估指标包括 MESR 8]、RPMD [3] 和 ROC/AUC [15]。MESR 通过将事件投射到扭曲的事件图像中并计算图像对比度指标来评估去噪性能,该指标可直接在事件序列上进行测试。RPMD 通过测量 APS 强度和根据 IMU 运动预测 DVS 行为来评估去噪性能。ROC/AUC 通过使用噪声注释数据计算假阳性率 (FPR) 和真阳性率 (TPR) 来评估去噪精度。
4.2 实验装置
我们在 NVIDIA RTX 3090 上训练 EDformer,利用整个 ED24 数据集进行训练。在训练过程中,批量大小为 96,
N
=
4096
N
=
4096
N=4096 N=4096 事件是从训练集中随机抽取的,没有任何数据增强,但在推理过程中可以输入所有事件。在大规模分支中,
k
l
=
k
l
=
k_(l)= k_{l}=
k
s
c
=
k
g
=
16
,
m
=
9
k
s
c
=
k
g
=
16
,
m
=
9
k_(sc)=k_(g)=16,m=9 k_{s c}=k_{g}=16, m=9 和
r
=
8
r
=
8
r=8 r=8 。在小规模分支中,
k
l
=
k
s
c
=
k
g
=
16
k
l
=
k
s
c
=
k
g
=
16
k_(l)=k_(sc)=k_(g)=16 k_{l}=k_{s c}=k_{g}=16 、
m
=
9
m
=
9
m=9 m=9 和
r
=
16
r
=
16
r=16 r=16 。使用学习率为 0.001 的 AdamW 优化器对模型进行了 60 次从头开始的训练,目的是最小化交叉熵损失 36。
图 5:DND21 数据集在
5
Hz
/
5
Hz
/
5Hz// 5 \mathrm{~Hz} / 像素和
10
Hz
/
10
Hz
/
10Hz// 10 \mathrm{~Hz} / 像素噪声率下的直观比较
4.3 定量评估
为了准确评估去噪精度,我们按照 [15] 中的设置进行了 AUC 实验。我们采用了频率范围为 1 到
10
Hz
/
10
Hz
/
10Hz// 10 \mathrm{~Hz} / 像素、COV 为 0.5 的 v2e 合成镜头噪声,并将其添加到酒店酒吧和驾驶数据集中。对于 BAF、YNoise、TS 和 KNoise,我们在
[
2
,
200
]
ms
[
2
,
200
]
ms
[2,200]ms [2,200] \mathrm{ms} 中扫过相关时间
t
t
t t 。对于 DWF,我们以
[
10
,
100
]
[
10
,
100
]
[10,100] [10,100] 像素为单位扫频距离阈值
s
s
s s 。对于 MLPF、EDnCNN 和 EDformer,我们将分类阈值
θ
θ
theta \theta 从 0 扫到 1。AUC 结果如表 2 所示,相应的 ROC 如表 3 所示。附录 B 中显示了相应的 ROC。图 5 显示了两个场景在
5
Hz
/
5
Hz
/
5Hz// 5 \mathrm{~Hz} / 像素和
10
Hz
/
10
Hz
/
10Hz// 10 \mathrm{~Hz} / 像素处去噪的直观对比。很明显,我们提出的 EDformer 始终表现出卓越的性能,实现了最高的 AUC,并在不同的镜头噪声率下展示了强大的泛化去噪精度。值得注意的是,在高光束噪声率下,EDformer 的去噪性能超过了其他方法,这肯定了它在具有挑战性的弱光条件下的功效。
表 2:不同去噪方法在 DND21 数据集上不同镜头噪声率下的 AUC。最好的用粗体表示,第二种用下划线表示。
方法
1
Hz
/
1
Hz
/
1Hz// 1 \mathrm{~Hz} / 像素
3 赫兹/像素
5
Hz
/
5
Hz
/
5Hz// 5 \mathrm{~Hz} / 像素
7
Hz
/
7
Hz
/
7Hz// 7 \mathrm{~Hz} / 像素
10
Hz
/
10
Hz
/
10Hz// 10 \mathrm{~Hz} / 像素
酒店-ba
驾驶
到
驾驶
otel-b
到
號
驾驶
號
驾驶
KNoise 19]
0.6773
0.6296
0.6521
0.6230
0.6703
0.6235
0.6583
0.6164
0.6413
0.6142
DWF 15
0.9268
0.7409
0.8930
0.7099
0.8620
0.6901
0.8338
0.6747
0.7958
0.6563
BAF 7|
0.9535
0.8479
0.9197
0.8155
0.8916
0.7930
0.8662
0.7732
0.8366
0.7479
EDnCNN 31
0.9573
0.8873
0.9371
0.8771
0.9365
0.8748
0.9254
0.8654
0.9006
0.8574
Ynoise 11]
0.9690
0.9409
―
0.9409
_
0.9409 _ \underline{0.9409}
0.9517
0.9240
0.9234
0.9093
0.9177
0.8972
0.8987
0.8800
TS 207
0.9716
―
0.9716
_
0.9716 _ \underline{0.9716}
0.9307
0.9721
―
0.9721
_
0.9721 _ \underline{0.9721}
0.9260
―
0.9260
_
0.9260 _ \underline{0.9260}
0.9606
0.9270
0.9654
0.9241
0.9620
0.9202
―
0.9202
_
0.9202 _ \underline{0.9202}
MLPF 15]
0.9704
0.8887
0.9718
0.8873
0.9704
0.8845
0.9691
―
0.9691
_
0.9691 _ \underline{0.9691}
0.8817
0.9634
0.8761
EDformer (我们的)
0.9928
0.9541
0.9891
0.9472
0.9845
0.9424
0.9792
0.9343
0.9699
0.9264
Methods 1Hz// pixel 3 Hz /pixel 5Hz// pixel 7Hz// pixel 10Hz// pixel
Hotel-ba Driving 到 Drivin otel-b 到 號 Driving 號 Driving
KNoise 19] 0.6773 0.6296 0.6521 0.6230 0.6703 0.6235 0.6583 0.6164 0.6413 0.6142
DWF 15 0.9268 0.7409 0.8930 0.7099 0.8620 0.6901 0.8338 0.6747 0.7958 0.6563
BAF 7| 0.9535 0.8479 0.9197 0.8155 0.8916 0.7930 0.8662 0.7732 0.8366 0.7479
EDnCNN 31 0.9573 0.8873 0.9371 0.8771 0.9365 0.8748 0.9254 0.8654 0.9006 0.8574
Ynoise 11] 0.9690 0.9409 _ 0.9517 0.9240 0.9234 0.9093 0.9177 0.8972 0.8987 0.8800
TS 207 0.9716 _ 0.9307 0.9721 _ 0.9260 _ 0.9606 0.9270 0.9654 0.9241 0.9620 0.9202 _
MLPF 15] 0.9704 0.8887 0.9718 0.8873 0.9704 0.8845 0.9691 _ 0.8817 0.9634 0.8761
EDformer (ours) 0.9928 0.9541 0.9891 0.9472 0.9845 0.9424 0.9792 0.9343 0.9699 0.9264 | Methods | $1 \mathrm{~Hz} /$ pixel | | 3 Hz /pixel | | $5 \mathrm{~Hz} /$ pixel | | $7 \mathrm{~Hz} /$ pixel | | $10 \mathrm{~Hz} /$ pixel | |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| | Hotel-ba | Driving | 到 | Drivin | otel-b | 到 | 號 | Driving | 號 | Driving |
| KNoise 19] | 0.6773 | 0.6296 | 0.6521 | 0.6230 | 0.6703 | 0.6235 | 0.6583 | 0.6164 | 0.6413 | 0.6142 |
| DWF 15 | 0.9268 | 0.7409 | 0.8930 | 0.7099 | 0.8620 | 0.6901 | 0.8338 | 0.6747 | 0.7958 | 0.6563 |
| BAF 7\| | 0.9535 | 0.8479 | 0.9197 | 0.8155 | 0.8916 | 0.7930 | 0.8662 | 0.7732 | 0.8366 | 0.7479 |
| EDnCNN 31 | 0.9573 | 0.8873 | 0.9371 | 0.8771 | 0.9365 | 0.8748 | 0.9254 | 0.8654 | 0.9006 | 0.8574 |
| Ynoise 11] | 0.9690 | $\underline{0.9409}$ | 0.9517 | 0.9240 | 0.9234 | 0.9093 | 0.9177 | 0.8972 | 0.8987 | 0.8800 |
| TS 207 | $\underline{0.9716}$ | 0.9307 | $\underline{0.9721}$ | $\underline{0.9260}$ | 0.9606 | 0.9270 | 0.9654 | 0.9241 | 0.9620 | $\underline{0.9202}$ |
| MLPF 15] | 0.9704 | 0.8887 | 0.9718 | 0.8873 | 0.9704 | 0.8845 | $\underline{0.9691}$ | 0.8817 | 0.9634 | 0.8761 |
| EDformer (ours) | 0.9928 | 0.9541 | 0.9891 | 0.9472 | 0.9845 | 0.9424 | 0.9792 | 0.9343 | 0.9699 | 0.9264 |
此外,我们还利用倒置显微镜和 DAVIS346 事件相机捕捉斑马鱼血管的其他事件数据。由于斑马鱼
图 6:使用倒置显微镜和 DAVIS346 事件相机观察斑马鱼血管,比较不同方法的去噪性能。所提出的方法能有效去除 BA 噪声,并保留原始事件序列的有效信息。 考虑到强光对斑马鱼造成的潜在伤害以及随之而来的周围温度升高导致生物不适,衰减器电压被设置为 3.5 V,从而创造了一个极低的光照环境。由于光照不足,DAVIS346 中的 CMOS 芯片无法捕捉斑马鱼血管的清晰 RGB 图像。这凸显了高动态范围事件相机的优势。然而,原始事件序列也受到大量 BA 噪声的困扰,需要有效去除。我们对表 2 中提到的去噪算法进行了直观比较,结果见表 3。结果如图 6 所示。可以看出,即使在微光环境下,我们的 EDformer 也能准确去除 BA 噪声。此外,与其他去噪算法相比,它能保留更完整的血管细节。这种去噪精度上的优势大大拓展了事件相机在显微镜中的实际应用前景。
为了进一步验证我们提出的 EDformer 的去噪通用性,我们按照 87 中所述的设置,在 E-MLB、RGBDAVIS 和 DND21 数据集上进行了 MESR 测试。如表 3 所示如表 3 所示,我们的模型在 RGBDAVIS 数据集上获得了最高的 MESR 分数,在 E-MLB 和 DND21 数据集上排名第二。值得注意的是,我们的模型在 E-MLB(夜间)ND64 数据集上获得了最高的 MESR 分数。这进一步表明,与其他去噪方法相比,EDformer 在极低光照条件下的去噪性能更为出色。在 MESR 测试过程中,我们发现 MESR 在评估事件过度去噪方面存在一定的局限性。为了说明这一点,我们在附录 C 中进行了补充分析。
4.4 消融实验
为了进一步验证三个变压器层对去噪性能的影响,我们设计了十个消融实验,如表 4 所示。4 所示,说明了去除不同成分对去噪精度的影响。具体来说,Exp.#2 删除 SCformer 和 GXformer,Exp.#3 删除 GX-
表 3:不同去噪方法在公开事件去噪数据集上的平均 ESR(MESR)结果。最好的用粗体表示,第二种用下划线表示。
方法
E-MLB (日光)
E-MLB (夜间)
RGBDAVIS
DND21
ND1
ND4
ND16
ND64
ND1
ND4
ND16
ND64
Indoo
超越
-
未加工
0.821
0.824
0.815
0.786
0.89
0.824
0.786
0.768
0.905
0.776
0.869
BAF 7|
0.861
0.869
0.876
0.89
0.946
0.973
0.992
0.942
0.943
0.891
0.92
KNoise 19]
0.846
0.837
0.83
0.807
0.954
0.956
0.871
0.817
0.934
0.895
0.887
DWF 15
0.878
0.876
0.866
0.865
0.923
0.962
0.988
0.932
0.923
0.89
0.905
EvFlow 32
0.848
0.878
0.868
0.833
0.969
0.983
0.889
0.797
0.829
1.061
1.006
YNoise 11]
0.866
0.863
0.857
0.821
1.009
0.943
0.875
0.792
0.825
1.077
0.966
TS 201
0.877
0.887
0.87
0.837
1.033
0.944
0.886
0.797
0.837
1.12
0.985
†
†
† \dagger IETS 4
0.772
0.785
0.777
0.753
0.950
0.823
0.804
0.711
0.762
0.988
0.900
GEF 97
1.051
0.938
0.935
0.927
1.027
0.955
0.946
0.935
1.031
0.986
0.932
MLPF 15]
0.851
0.855
0.846
0.84
0.926
0.928
0.91
0.906
0.983
0.932
0.944
EDnCNN 31
0.887
0.908
0.903
0.912
1.001
1.024
1.079
1.086
―
1.086
_
1.086 _ \underline{1.086}
0.982
1.014
0.977
†
†
† \dagger 事件放大 10]
0.996
―
0.996
_
0.996 _ \underline{0.996}
0.988
0.996
0.97
1.055
1.007
1.01
0.988
0.93
1.135
1.059
EDformer (我们的)
0.952
0.955
0.956
―
0.956
_
0.956 _ \underline{0.956}
0.942
1.048
1.019
1.076
1.099
1.051
1.17
1.041
Methods E-MLB (Daylight) E-MLB (Night) RGBDAVIS DND21
ND1 ND4 ND16 ND64 ND1 ND4 ND16 ND64 Indoo Outdo -
Raw 0.821 0.824 0.815 0.786 0.89 0.824 0.786 0.768 0.905 0.776 0.869
BAF 7| 0.861 0.869 0.876 0.89 0.946 0.973 0.992 0.942 0.943 0.891 0.92
KNoise 19] 0.846 0.837 0.83 0.807 0.954 0.956 0.871 0.817 0.934 0.895 0.887
DWF 15 0.878 0.876 0.866 0.865 0.923 0.962 0.988 0.932 0.923 0.89 0.905
EvFlow 32 0.848 0.878 0.868 0.833 0.969 0.983 0.889 0.797 0.829 1.061 1.006
YNoise 11] 0.866 0.863 0.857 0.821 1.009 0.943 0.875 0.792 0.825 1.077 0.966
TS 201 0.877 0.887 0.87 0.837 1.033 0.944 0.886 0.797 0.837 1.12 0.985
† IETS 4 0.772 0.785 0.777 0.753 0.950 0.823 0.804 0.711 0.762 0.988 0.900
¡GEF 97 1.051 0.938 0.935 0.927 1.027 0.955 0.946 0.935 1.031 0.986 0.932
MLPF 15] 0.851 0.855 0.846 0.84 0.926 0.928 0.91 0.906 0.983 0.932 0.944
EDnCNN 31 0.887 0.908 0.903 0.912 1.001 1.024 1.079 1.086 _ 0.982 1.014 0.977
† EventZoom 10] 0.996 _ 0.988 0.996 0.97 1.055 1.007 1.01 0.988 0.93 1.135 1.059
EDformer (Ours) 0.952 0.955 0.956 _ 0.942 1.048 1.019 1.076 1.099 1.051 1.17 1.041 | Methods | E-MLB (Daylight) | | | | E-MLB (Night) | | | | RGBDAVIS | | DND21 |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| | ND1 | ND4 | ND16 | ND64 | ND1 | ND4 | ND16 | ND64 | Indoo | Outdo | - |
| Raw | 0.821 | 0.824 | 0.815 | 0.786 | 0.89 | 0.824 | 0.786 | 0.768 | 0.905 | 0.776 | 0.869 |
| BAF 7\| | 0.861 | 0.869 | 0.876 | 0.89 | 0.946 | 0.973 | 0.992 | 0.942 | 0.943 | 0.891 | 0.92 |
| KNoise 19] | 0.846 | 0.837 | 0.83 | 0.807 | 0.954 | 0.956 | 0.871 | 0.817 | 0.934 | 0.895 | 0.887 |
| DWF 15 | 0.878 | 0.876 | 0.866 | 0.865 | 0.923 | 0.962 | 0.988 | 0.932 | 0.923 | 0.89 | 0.905 |
| EvFlow 32 | 0.848 | 0.878 | 0.868 | 0.833 | 0.969 | 0.983 | 0.889 | 0.797 | 0.829 | 1.061 | 1.006 |
| YNoise 11] | 0.866 | 0.863 | 0.857 | 0.821 | 1.009 | 0.943 | 0.875 | 0.792 | 0.825 | 1.077 | 0.966 |
| TS 201 | 0.877 | 0.887 | 0.87 | 0.837 | 1.033 | 0.944 | 0.886 | 0.797 | 0.837 | 1.12 | 0.985 |
| $\dagger$ IETS 4 | 0.772 | 0.785 | 0.777 | 0.753 | 0.950 | 0.823 | 0.804 | 0.711 | 0.762 | 0.988 | 0.900 |
| ¡GEF 97 | 1.051 | 0.938 | 0.935 | 0.927 | 1.027 | 0.955 | 0.946 | 0.935 | 1.031 | 0.986 | 0.932 |
| MLPF 15] | 0.851 | 0.855 | 0.846 | 0.84 | 0.926 | 0.928 | 0.91 | 0.906 | 0.983 | 0.932 | 0.944 |
| EDnCNN 31 | 0.887 | 0.908 | 0.903 | 0.912 | 1.001 | 1.024 | 1.079 | $\underline{1.086}$ | 0.982 | 1.014 | 0.977 |
| $\dagger$ EventZoom 10] | $\underline{0.996}$ | 0.988 | 0.996 | 0.97 | 1.055 | 1.007 | 1.01 | 0.988 | 0.93 | 1.135 | 1.059 |
| EDformer (Ours) | 0.952 | 0.955 | $\underline{0.956}$ | 0.942 | 1.048 | 1.019 | 1.076 | 1.099 | 1.051 | 1.17 | 1.041 |
前,Exp.#9 删除小规模分支,Exp.#10 删除大型分支。Exp.#1 是最佳模型参数设置,而其他九个对比实验则研究了模块组合、时空维度和大/小尺度分支对模型去噪性能的影响。
模块组合在对比实验 #2、#3 和 #4 时,添加 LXformer、SCformer 和 GXformer 模块可提高模型的分类准确性。这表明,EDformer 的去噪性能依赖于局部时空相关性,而加入局部空间和全局时空相关性的计算可进一步提高去噪精度。与此相反,比较实验 1 和实验 4 可以发现,实验 1 和实验 4 都是通过计算局部空间和全局时空相关性来提高去噪精度。#1 和 #4 发现,在大规模分支中抑制 GXformer 实际上会提高去噪精度。这表明全局时空相关性可能不适合大时空尺度。
时空维度 将 Exp.
#
5
,
#
6
,
#
7
#
5
,
#
6
,
#
7
#5,#6,#7 \# 5, \# 6, \# 7 和
#
8
#
8
#8 \# 8 作为一组,可以发现 LXformer 中 KNN 的值过大或过小,SCformer 中球查询大小过小,GXformer 中全局样本数减少,都会导致模型的去噪精度下降。
大尺度/小尺度分支 比较实验 #9 和 #10#在对比实验 9 和实验 10 时,使用固定的输入量而不是考虑不同时间尺度的事件,会大大降低模型的去噪性能。这是因为固定的事件输入量可能无法准确捕捉场景中因环境亮度和运动变化而触发的不同数量的事件。设计不同时间尺度的分支可以有效解决这一问题。
推理时间 由于我们的注意力模块只考虑每个事件周围的
k
k
k k 邻居,如公式 (2) 所述。因此,注意力的计算复杂度从
O
(
N
2
)
O
N
2
O(N^(2)) O\left(N^{2}\right) 降低到
O
(
N
k
)
O
(
N
k
)
O(Nk) O(N k) 。我们使用长度为
N
=
89960
N
=
89960
N=89960 N=89960 的序列进行了测试,GPU 内存消耗为 4GB。在推理过程中,确定每个事件是否为 BA 噪声大约需要
22
μ
s
22
μ
s
22 mu s 22 \mu s 。如果我们简化模型组件,只使用 LXformer,则每个事件的推理时间可减少到
∼
9
μ
s
∼
9
μ
s
∼9mu s \sim 9 \mu s ,但去噪精度会降低。
表 4:EDformer 参数的烧蚀实验
Exp.
大型分部
小型分支机构
AUC (5 赫兹/像素)
k
l
k
l
k_(l) k_{l}
m
r
k
l
k
l
k_(l) k_{l}
m
r
酒店酒吧
驾驶
#1
16
9
8
16
9
16
0.9845
0.9424
#2
16
-
-
16
-
-
0.9720
0.9234
#3
16
9
-
16
9
-
0.9779
0.9364
#4
16
9
16
16
9
16
0.9841
0.9415
#5
8
9
8
8
9
16
0.9808
0.9396
#6
32
9
8
32
9
16
0.9815
0.9324
#7
16
5
8
16
5
16
0.9835
0.9379
#8
16
9
8
16
5
8
0.9836
0.9386
#9
16
9
8
-
-
-
0.9628
0.9051
#10
-
-
-
16
9
16
0.9608
0.8954
Exp. Large Scale Branch Small Scale Branch AUC (5 Hz/pixel)
k_(l) m r k_(l) m r Hotel-bar Driving
#1 16 9 8 16 9 16 0.9845 0.9424
#2 16 - - 16 - - 0.9720 0.9234
#3 16 9 - 16 9 - 0.9779 0.9364
#4 16 9 16 16 9 16 0.9841 0.9415
#5 8 9 8 8 9 16 0.9808 0.9396
#6 32 9 8 32 9 16 0.9815 0.9324
#7 16 5 8 16 5 16 0.9835 0.9379
#8 16 9 8 16 5 8 0.9836 0.9386
#9 16 9 8 - - - 0.9628 0.9051
#10 - - - 16 9 16 0.9608 0.8954 | Exp. | Large Scale Branch | | | Small Scale Branch | | | AUC (5 Hz/pixel) | |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| | $k_{l}$ | m | r | $k_{l}$ | m | r | Hotel-bar | Driving |
| #1 | 16 | 9 | 8 | 16 | 9 | 16 | 0.9845 | 0.9424 |
| #2 | 16 | - | - | 16 | - | - | 0.9720 | 0.9234 |
| #3 | 16 | 9 | - | 16 | 9 | - | 0.9779 | 0.9364 |
| #4 | 16 | 9 | 16 | 16 | 9 | 16 | 0.9841 | 0.9415 |
| #5 | 8 | 9 | 8 | 8 | 9 | 16 | 0.9808 | 0.9396 |
| #6 | 32 | 9 | 8 | 32 | 9 | 16 | 0.9815 | 0.9324 |
| #7 | 16 | 5 | 8 | 16 | 5 | 16 | 0.9835 | 0.9379 |
| #8 | 16 | 9 | 8 | 16 | 5 | 8 | 0.9836 | 0.9386 |
| #9 | 16 | 9 | 8 | - | - | - | 0.9628 | 0.9051 |
| #10 | - | - | - | 16 | 9 | 16 | 0.9608 | 0.8954 |
5 结束语
本文扩展了对各种光照条件下 BA 噪声的研究。我们引入了 ED24--首个包含 21 种噪声水平的真实世界事件去噪数据集,并提出了基于变换器的去噪模型 EDformer,该模型通过学习事件的时空相关性,以事件分类的方式实现事件去噪。EDformer 优于现有方法,展示了最先进的去噪精度。这些贡献旨在加深人们对事件相机 BA 噪声的理解,并为事件去噪领域的未来研究提供宝贵资源。
致谢
参考资料
Acharya, J., Caycedo, A.U., Padala, V.R., Sidhu, R.R.S., Orchard, G., Ramesh, B., Basu, A.: Ebbiot:用于 iovt 监控的低复杂度跟踪算法