这是用户在 2024-5-21 13:42 为 https://ar5iv.labs.arxiv.org/html/2308.11958?_immersive_translate_auto_translate=1 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?


通过再生正则化保持持续学习的可塑性

 索拉布·库马尔(Saurabh Kumar)  亨里克·马克伦德  本杰明·范·罗伊
斯坦福大学电气工程系

斯坦福大学管理科学与工程系
 抽象


在持续学习中,可塑性是指智能体快速适应新信息的能力。众所周知,神经网络在处理非平稳数据流时会失去可塑性。在本文中,我们提出了 L 222 Init,这是一种通过在损失函数中加入初始参数的 L2 正则化来保持可塑性的简单方法。这与标准 L 正 222 则化 (L 222 ) 非常相似,唯一的区别是 L 朝原点 222 正则化。L 222 Init 实现起来很简单,只需要选择一个超参数。这种方法的动机与重置神经元或参数值的方法相同。直观地说,当最近的损失对特定参数不敏感时,这些参数应该向它们的初始值漂移。这样可以准备参数以快速适应新任务。在持续监督学习中代表不同类型非平稳性的问题上,我们证明,与之前提出的方法相比,L 222 Init 最一致地减轻了可塑性损失。

 1引言


在持续学习中,智能体必须不断适应不断变化的数据流。先前的研究表明,在非平稳性问题中,神经网络往往会随着时间的推移而失去适应能力(参见例如,Achille et al. [ 2017]、Ash and Adams [ 2020]、Dohare et al. [ 2021])。这被称为可塑性丧失。为缓解这个问题而提出的方法包括那些连续或定期重置某些权重子集的方法 [Dohare 等人,2021 年,Sokar 等人,2023 年],将正则化添加到训练目标 [Ash 和 Adams,2020 年],或向神经网络添加架构更改 [Ba 等人,2016 年,Lyle 等人,2023 年,Nikishin 等人,2023 年]。


然而,这些方法要么在更广泛的问题上失败,要么实施起来非常复杂,需要调整多个活动部件或超参数。在本文中,我们从持续学习中有效保持可塑性的方法中汲取灵感,例如 Continual Backprop [Dohare et al., 2021],提出了一种更简单的基于正则化的替代方案。我们的主要贡献是一种保持可塑性的简单方法,我们称之为 L 222 Init。我们的方法表现为对 L2 正则化的简单修改,该正则化在整个深度学习文献中使用。L 222 Init 不是朝零正则化,而是朝初始参数值正则化。具体来说,我们提出的正则化项是网络当前参数值与初始值之差的平方 L2 范数。L 222 Init 是一种简单的实现方法,只需要一个额外的超参数。


这种方法的动机与重置神经元或参数的方法(例如Continual Backprop)的动机相同。直观地说,通过确保某些参数值接近初始化,总会招募一些参数以快速适应新任务。具有接近初始化的参数可能会增加可塑性的原因有很多,包括保持较小的权重量级、避免死的 ReLU 单元以及防止权重等级崩溃。


为了研究 L 222 Init,我们对持续监督学习问题进行了实证研究,每个问题都表现出两种类型的非平稳性之一:输入分布偏移和目标函数(或概念)偏移。我们发现,相对于其他方法,L 222 Init 在两种类型的非平稳性上都保持了最高的可塑性。为了更好地理解 L 222 Init 保持可塑性的机制,我们研究了平均体重、大小和特征等级在整个训练过程中是如何演变的。虽然 L 222 Init 和标准 L 222 正则化都降低了权重幅度,但 L 222 Init 保持了较高的特征等级,这一特性有时与保持可塑性相关 [Kumar 等人,2020 年]。最后,在烧蚀中,我们发现朝向固定初始参数而不是随机参数集进行正则化是该方法的重要组成部分。此外,我们发现,在正则化初始参数时,使用 L1 距离而不是 L2 距离也显着减轻了塑性损失,但与 L2 Init 相比,整体性能略差。

 2相关工作


在过去的十年中,越来越多的证据表明,当面对非平稳的数据流时,神经网络会随着时间的推移而失去学习能力 [Ash 和 Adams,2020 年,Dohare 等人,2021 年]。这种现象最初是在预训练的背景下为深度学习确定的 [Achille 等人,2017 年,Zilly 等人,2020 年,Ash 和 Adams,2020 年]。例如,Achille等人[2017]证明,在模糊的CIFAR图像上训练神经网络会显着降低其随后在原始CIFAR图像上学习的能力。从那时起,神经网络的学习能力随时间推移的恶化已被确定为各种名称,包括负预训练效应 [Zilly et al., 2020]、不妥协 [Chaudhry et al., 2018]、关键学习期 [Achille et al., 2017]、首要偏见 [Nikishin et al., 2022]、休眠神经元现象 [Sokar et al., 2023]、隐性参数不足 [Kumar et al., 2020]、容量损失 [Lyle et al., 2022],最后是包罗万象的术语,可塑性损失(或可塑性损失)[Lyle et al., 2023]。在本节中,我们回顾了研究塑性损失的问题设置、塑性损失的潜在原因以及之前提出的缓解此问题的方法。

 2.1问题设置


我们首先回顾了研究可塑性损失的两个问题设置:持续学习和强化学习。


持续学习。在本文中,我们旨在减轻持续学习环境中的可塑性损失,特别是持续监督学习。虽然持续学习文献主要集中在减少灾难性遗忘 [Goodfellow et al., 2013, Kirkpatrick et al., 2017],但最近,可塑性损失的问题引起了人们的极大关注 [Dohare et al., 2021, 2023, Abbas et al., 2023]。Dohare等人[2021]证明,可塑性的丧失有时只有在训练长序列任务后才会变得明显。因此,在持续学习中,当智能体在很长的生命周期内遇到许多任务,或者更普遍地说是非平稳数据流时,减轻可塑性损失变得尤为重要。


强化学习。可塑性损失在深度强化学习 (RL) 文献中也引起了极大的关注 [Igl et al., 2020, Kumar et al., 2020, Nikishin et al., 2022, Lyle et al., 2022, Gulcehre et al., 2022, Sokar et al., 2023, Nikishin et al., 2023, Lyle et al., 2023]。在RL中,输入数据流表现出两个非平稳性源。首先,观察结果随时间推移呈显著相关性,并受到不断发展的智能体策略的影响。其次,使用时间差分学习引导的常见RL方法基于定期更新的目标网络的预测[Mnih等人,2013]。不断变化的回归目标引入了一个额外的非平稳性来源。


2.2塑性损失的原因


虽然对于神经网络失去可塑性的原因有几种假设,但对这个问题仍然知之甚少。建议的原因包括不活跃的 ReLU 单元、特征或权重等级崩溃以及由于权重量级大而导致的分歧 [Lyle 等人,2023 年,Sokar 等人,2023 年,Dohare 等人,2023 年,Kumar 等人,2020 年]。Dohare et al. [ 2021] 认为,使用 Adam 优化器很难更新具有大幅度的权重,因为更新受步长的限制。Zilly et al. [ 2021] 提出,当神经元的传入和传出权重都接近于零时,它们会“相互冻结”并且更新速度非常慢,这可能导致可塑性降低。然而,Lyle et al. [ 2023] 和 Gulcehre et al. [ 2022] 都表明,许多先前提出的可塑性损失机制不足以解释可塑性损失。虽然可塑性损失的原因尚不清楚,但我们相信有可能设计出缓解该问题的方法,从初始化神经网络具有高可塑性这一事实中汲取灵感。


2.3减轻塑性损失


已经提出了大约十几种方法来减轻可塑性的损失。我们将它们分为四种主要类型:重置、正则化、架构和优化器解决方案。


重 置。本文从重置方法中汲取灵感,这些方法重新初始化神经元或参数的子集 [Zilly 等人,2020 年,Dohare 等人,2021 年,Nikishin 等人,2022 年,2023 年,Sokar 等人,2023 年,Dohare 等人,2023 年]。例如,Continual Backprop [Dohare et al., 2021] 跟踪每个神经元的效用度量,并重置效用低于特定阈值的神经元。此过程涉及多个超参数,包括效用阈值、成熟度阈值、替换率和效用衰减率。Sokar et al. [ 2023] 提出了一个类似但更简单的想法。它们不是跟踪每个神经元的实用程序,而是定期计算一批数据的激活。如果一个神经元相对于神经网络相应层中的其他神经元具有较小的平均激活,则该神经元将被重置。重置单个神经元的相关解决方案是保留一个重放缓冲区,并在缓冲区中的数据上从头开始训练新初始化的神经网络 [Igl 等人,2020 年],使用原始标签或使用当前网络的输出作为目标。这是一种概念上简单但计算上非常昂贵的方法。受这些方法的启发,本文的目的是开发一种简单的正则化方法,该方法可以隐式且平滑地重置低效用的权重。


正规化。已经提出了许多正则化神经网络参数的方法 [Ash 和 Adams,2020 年,Kumar 等人,2020 年,Lyle 等人,2022 年]。与我们的方法最相似的方法是 L2 正则化,它将参数正则化为零。虽然 L2 正则化降低了参数幅度,这有助于减轻质化损失,但朝向原点的正则化可能会使权重矩阵的秩崩溃,并导致所谓的相互冻结权重 [Zilly 等人,2021 年],这两者都可能对可塑性产生不利影响。相比之下,我们的再生正则化方法避免了这些问题。另一种类似于我们的方法是 Shrink & Perturb [Ash 和 Adams,2020],这是一个定期应用的两步程序。首先通过与标量相乘来缩小权重,然后通过添加随机噪声来扰动。收缩率和噪声比例系数是超参数。在附录 A.3 中,我们讨论了 Shrink & Perturb 与我们提出的再生正则化之间的关系。其他减轻可塑性损失的正则化方法包括 Lyle 等人 [ 2022] 提出的正则化方法,该方法将神经网络的输出正则化为早期预测,以及 Kumar 等人 [ 2020] 提出的最大化特征秩。


最后,我们讨论了弹性重量巩固 (EWC) [Kirkpatrick 等人,2017 年],它旨在减轻灾难性遗忘。EWC 与我们的方法类似,因为它对以前的参数进行正则化。然而,一个重要的区别是,EWC 不会朝向初始参数正则化,而是朝向每个先前任务结束时的参数。因此,虽然EWC旨在记住有关先前任务的信息,但我们的方法旨在保持可塑性。也许可以说,我们的方法旨在“记住如何学习”。


建筑。层归一化 [Ba et al., 2016] 是整个深度学习中使用的常用技术,已被证明可以减轻可塑性损失 [Lyle et al., 2023]。第二种解决方案旨在通过修改 ReLU 激活函数来减少始终输出零的神经网络特征的数量 [Shang et al., 2016, Abbas et al., 2023]。特别是,应用级联 ReLU 可确保每个神经元始终被激活,因此具有非零梯度。但是,级联 ReLU 的代价是参数总数增加了一倍。特别是,在应用 ReLU 激活之前,每个隐藏层输出都与输出值的负数连接起来,这会使下一层的输入数量增加一倍。在第 5 节的实验中,我们修改了 Concat ReLU 的神经网络架构,使其具有与所有其他智能体相同的参数计数。


优化。标准形式的 Adam 优化器不适合持续学习环境。特别是,Adam 跟踪梯度第一和第二矩的估计值,当传入的数据分布快速变化时,这些估计值可能会变得不准确。在训练基于值的 RL 代理时,Lyle et al. [ 2023] 评估了在目标网络更新时重置优化器状态的效果。仅凭这一点并不能减轻可塑性损失。他们评估的另一种方法是调整Adam超参数,以便更快地更新第二矩估计值,并降低对大梯度的敏感性。虽然这显着提高了玩具RL问题的性能,但仍然存在一些可塑性损失。我们提出的方法的一个重要好处是,它被设计为与任何神经网络架构和优化器一起使用。


3再生正则化


在本节中,我们提出了一种保持可塑性的简单方法,我们称之为 L 222 Init。我们的方法从以前的工作中汲取了灵感,这些工作证明了选择性地重新初始化参数以保持可塑性的好处。这些方法的动机是可以为新任务招募重新初始化的参数,并且休眠或不活跃的神经元可以重新获得其效用 [Dohare 等人,2021 年,Nikishin 等人,2022 年,Sokar 等人,2023 年]。虽然这些方法在不同的问题上取得了成功,但它们通常涉及多个附加组件或超参数。相比之下,L 222 Init 易于实现,并引入了单个超参数。


给定神经网络参数 θ𝜃\theta ,L 222 Init 用正则化项来扩充一个标准的训练损失函数 train(θ)subscripttrain𝜃\mathcal{L}_{\text{train}}(\theta) 。具体来说,L 222 Init 在发生梯度更新的每个时间步对初始参数值 θ0subscript𝜃0\theta_{0} 执行 L 222 正则化。增强损失函数为

reg(θ)=train(θ)+λθθ022,subscriptreg𝜃subscripttrain𝜃𝜆superscriptsubscriptnorm𝜃subscript𝜃022\displaystyle\mathcal{L}_{\text{reg}}(\theta)=\mathcal{L}_{\text{train}}(\theta)+\lambda||\theta-\theta_{0}||_{2}^{2},


其中 λ𝜆\lambda 是正则化强度, θ0subscript𝜃0\theta_{0} 是时间步 00 长处参数值的向量。


我们的正则化项类似于标准 L 222 正则化,不同之处在于 L 222 Init 朝向初始参数值而不是原点正则化。虽然这是一个简单的修改,但我们在第 5 节中证明,相对于持续学习环境中的标准 L 222 正则化,它显着减少了可塑性损失。


L 222 Init 在精神上类似于 Continual Backprop [Dohare et al., 2021] 等重置方法,后者明确计算每个神经元的效用度量,然后重置效用低的神经元。L 222 Init 不是重置完整的神经元,而是按重量工作,并鼓励效用低的重量重置。直观地说,当训练损失 trainsubscripttrain\mathcal{L}_{\text{train}} 对特定参数变得不敏感时,这些参数会向它们的初始值漂移,为它们快速适应未来的任务做好准备。因此,L 222 Init 可以被认为是隐式和平滑地重置低效用权重。我们使用术语再生正则化来表征正则化,它使不再有用的参数恢复活力。


4持续监督学习


在本文中,我们研究了持续监督学习环境中的可塑性损失。在我们考虑的持续监督学习问题中,智能体会面临一系列 {Ti}i=1KsuperscriptsubscriptsubscriptT𝑖𝑖1𝐾\{{\rm{T}}_{i}\}_{i=1}^{K} K𝐾K 任务。每个任务 TisubscriptT𝑖{\rm{T}}_{i} 对应于一个唯一的(图像、标签)数据对数据集 𝒟Tisubscript𝒟subscriptT𝑖\mathcal{D}_{{\rm{T}}_{i}} ,代理在每个时间步从该数据集接收一批样本,持续时间为固定的时间 M𝑀M 步长。

 4.1评估协议


为了衡量两种智能体的性能以及它们保持可塑性的能力,我们测量了每项任务的平均在线准确性。具体而言,对于每个任务 TisubscriptT𝑖{\rm{T}}_{i} ,我们计算

Avg Online Task Accuracy(Ti)=1Mj=titi+M1ajAvg Online Task AccuracysubscriptT𝑖1𝑀superscriptsubscript𝑗subscript𝑡𝑖subscript𝑡𝑖𝑀1subscript𝑎𝑗\text{Avg Online Task Accuracy}({\rm{T}}_{i})=\frac{1}{M}\sum_{j=t_{i}}^{t_{i}+M-1}a_{j}


其中 tisubscript𝑡𝑖t_{i} ,是任务 Tisubscript𝑇𝑖T_{i} 的起始时间步长, ajsubscript𝑎𝑗a_{j}j𝑗j 第一批样品的平均精度。我们将此指标称为平均在线任务准确性。该指标捕捉了智能体能够学会在任务上做好工作的速度,这是衡量其可塑性的指标。如果平均在线任务准确率随时间推移而下降,我们说存在可塑性损失,假设所有任务的难度都相同。


为了执行模型选择,我们还计算了每个智能体在智能体生命周期内看到的所有数据的平均在线准确度。这是在线持续学习中使用的常用指标 [Cai et al., 2021, Ghunaim et al., 2023, Prabhu et al., 2023],计算方法如下:

Total Avg Online Accuracy=1MKt=0MKatTotal Avg Online Accuracy1𝑀𝐾superscriptsubscript𝑡0𝑀𝐾subscript𝑎𝑡\text{Total Avg Online Accuracy}=\frac{1}{MK}\sum_{t=0}^{MK}a_{t}


为了与平均在线任务准确率区分开来,我们将此指标称为总平均在线准确率。


塑性损失包含两种相关但截然不同的现象。首先,它包括神经网络拟合传入数据的能力降低。例如,Lyle et al. [ 2023] 展示了使用 Adam 优化器训练的神经网络如何显着失去使用随机分配标签拟合 MNIST 图像数据集的能力。其次,可塑性损失还包括神经网络泛化到新数据的能力降低 [Igl et al., 2020, Liu et al., 2020]。上述两个指标对这两种现象都很敏感。

4.2 Problems


在第 5 节的实验中,我们评估了五个连续图像分类问题的方法。其中三个问题,置换 MNIST、5+1 CIFAR 和连续图像网表现出输入分布偏移,其中不同的任务具有不同的输入。剩下的问题,随机标签MNIST和随机标签CIFAR,表现出概念转变,不同的任务具有完全相同的输入,但分配给每个输入的标签不同。我们考虑的所有持续图像分类问题都由一系列监督学习任务组成。代理将看到来自任务的成批(图像、标签)数据对,这些数据对具有固定的时间步长,之后下一个任务到达。智能体是以增量方式训练的,以最大程度地减少其接收批次的交叉熵损失。虽然存在离散的任务边界,但当任务切换时,代理不会得到任何指示。


置换的 MNIST。我们考虑的第一个问题是置换 MNIST,这是持续学习文献中的一个常见基准 [Goodfellow et al., 2013]。在我们的置换 MNIST 设置中,我们从 MNIST 训练数据集中随机抽取 10,000 张图像。置换 MNIST 任务的特征是将固定的随机采样排列应用于所有 10,000 个图像的输入像素。代理将分批显示这 10,000 张图像,相当于通过任务数据集训练 111 纪元。所有样品都看过一次后,下一个任务到达,该过程重复。在我们的置换MNIST实验中,我们训练智能体完成 500500500 任务。


随机标签 MNIST。我们的第二个问题是随机标签 MNIST,这是 Lyle 等人 [ 2023] 中问题的变体。我们从MNIST数据集中随机抽取 120012001200 图像。随机标签 MNIST 任务的特征是随机为该子集中的每个单独图像分配一个标签。与置换MNIST相比,我们针对 400400400 纪元训练代理,以便神经网络学习记忆图像的标签。纪元完成后 400400400 ,下一个任务到达,该过程重复。在我们的随机标签MNIST实验中,我们训练智能体完成 505050 任务。


随机标签 CIFAR。第三个问题是随机标签 CIFAR,它等同于随机标签 MNIST 的设置,只是数据是从 CIFAR 101010 训练数据集中采样的。对于置换 MNIST、随机标签 MNIST 和随机标签 CIFAR,数据按大小 161616 的批次到达。


5+1 西法尔。在我们的第四个问题 5+1 CIFAR 中,任务的难度各不相同。具体来说,每个偶数任务都是“困难的”,而每个奇数任务都是“容易的”。数据是从 CIFAR 100 数据集中提取的,一项艰巨的任务的特点是查看 555 CIFAR 100 类的(图像、标签)数据对,而在一项简单的任务中,仅来自单个类的数据即可到达。每个困难任务都由 250025002500 数据对( 500500500 来自每个类)组成,而每个简单任务由 500500500 来自单个类的数据对组成。特别是,具有单个类的任务被描述为“简单”,因为所有标签都是相同的。每个任务都有一个 780780780 时间步长的持续时间,当使用批大小为 时 323232 ,该时间步长对应于通过硬任务数据集的 101010 纪元。此问题旨在反映具有不同输入分布的持续学习场景,因为智能体在不同时间接收具有不同多样性水平的数据。在这个问题上,我们专门衡量智能体在困难任务上的表现,因为所有智能体在简单任务上都做得很好。


持续的图像网络。第五个问题是连续图像网络的变体 [Dohare et al., 2023],其中每个任务都是区分两个 ImageNet 类。每个任务都从两个类中每个类的图像 120012001200 600600600 数据集中提取。我们使用批量大小 100100100 在每个任务上训练 101010 epoch 的代理。根据 [Dohare et al., 2023],图像被缩小到 32 x 32 以节省计算。在 5+1 CIFAR 和 Continual ImageNet 中,每个单独的类不会出现在多个任务中。所有问题的其他详细信息见附录 A.1.1。

 5实验


我们实验的目的是确定 L 222 Init 是否减轻了持续监督学习中的可塑性损失。为此,我们评估了 L 222 Init 和第 4.2 节中介绍的关于连续图像分类问题的一些先前方法,其中大部分以前已用于研究可塑性损失 Dohare et al. [ 2021], Lyle et al. [ 2023]。我们选择的方法在以前的持续学习研究中表现出良好的性能,并且代表了三种不同的方法类型:重置、正则化和架构解决方案。我们考虑的这些方法如下:


  • • 重置:连续反向螺旋桨 [Dohare 等人,2021 年],ReDO [Sokar 等人,2023 年]

  • • 正则化:L 222 正则化 (L 222 ), Shrink & Perturb [Ash and Adams, 2020]

  • • 建筑:级联 ReLU (Concat ReLU) [Shang et al., 2016, Abbas et al., 2023], Layer Normalization (Layer Norm) [Ba et al., 2016]


评估。对于所有问题,我们对每种方法进行超参数扫描,并对 333 种子进行平均结果。对于每种方法,我们都会选择产生最大总平均在线准确率的配置。然后,我们在其他种子上 101010 运行每种方法的最佳配置,从而产生图 1-5 中的结果。除了确定神经网络的初始化外,每个种子还确定问题参数,例如包含每个任务的数据,以及从每个任务的数据集中采样(数据、标签)的序列。例如,在 Permuted MNIST 上,种子确定应用于图像的唯一排列序列,从而产生唯一的任务序列,以及任务数据的随机排序方式。再举一个例子,在 Continual ImageNet 上,它确定组成每个任务的类对、任务序列以及每个任务中的批处理序列。对于所有问题,种子确定一组唯一的任务和这些任务的顺序。


超参数。为了评估优化器选择的鲁棒性,我们使用具有固定步长 (Vanilla SGD) 的 Adam 和随机梯度下降来训练所有智能体。我们选择 Adam 是因为它是深度学习中最常见的优化器之一,我们选择 Vanilla SGD 是因为最近的工作反对在持续学习中使用 Adam [Ashley et al., 2021]。对于所有代理,我们在使用 Vanilla SGD 和 α{1e3,1e4}𝛼1e31e4\alpha\in\{1\mathrm{e}{-3},1\mathrm{e}{-4}\} 使用 Adam 时会扫描步长 α{1e2,1e3}𝛼1e21e3\alpha\in\{1\mathrm{e}{-2},1\mathrm{e}{-3}\} 。此外,在 5+1 CIFAR 和 Continual ImageNet 上使用 Vanilla SGD 时,我们还会进行扫描 α=0.1𝛼0.1\alpha=0.1 。对于 L 222 和 L 222 Init,我们扫描正则化强度 λ{1e2,1e3,1e4,1e5}𝜆1e21e31e41e5\lambda\in\{1\mathrm{e}{-2},1\mathrm{e}{-3},1\mathrm{e}{-4},1\mathrm{e}{-5}\} 。对于收缩和扰动,我们对收缩参数 p{1e2,1e3,1e4,1e5}𝑝1e21e31e41e5p\in\{1\mathrm{e}{-2},1\mathrm{e}{-3},1\mathrm{e}{-4},1\mathrm{e}{-5}\} 和噪声标 σ{1e2,1e3,1e4,1e5}𝜎1e21e31e41e5\sigma\in\{1\mathrm{e}{-2},1\mathrm{e}{-3},1\mathrm{e}{-4},1\mathrm{e}{-5}\} 度进行网格搜索。对于连续反向螺旋桨,我们扫描了替换率 r{1e4,1e5,1e6}𝑟1e41e51e6r\in\{1\mathrm{e}{-4},1\mathrm{e}{-5},1\mathrm{e}{-6}\} 。对于所有其他连续反向传播超参数,我们使用 Dohare 等人 [ 2023] 中报告的值。对于 ReDO,我们通过回收每个 111222555 任务的神经元来扫描回收周期,并扫描集合 {0,0.01,0.1}00.010.1\{0,0.01,0.1\} 中的回收阈值。最后,作为基线方法,我们运行具有恒定步长和 Adam 的普通增量 SGD。除了步长之外,我们还对两个优化器使用 PyTorch 默认超参数。其他训练细节,包括神经网络架构和超参数设置,在附录 A.1.2 中。


5.1比较评价

 置换式 MNIST
Refer to caption
 随机标签 MNIST
Refer to caption
 随机标签 CIFAR
Refer to caption
 5+1 西法尔
Refer to caption
 持续图像网络
Refer to caption
BaselineLayer NormShrink & PerturbReDOL2 InitL2Continual BackpropConcat ReLU

图 1:使用 Adam 优化器时所有五个问题的平均在线任务准确率比较。L 222 Init 始终如一地保持可塑性。虽然 L 在置换 MNIST 和连续图像网络上完全 222 减轻了可塑性损失,但该方法在随机标记 MNIST、随机标记 CIFAR 和 5+1 CIFAR 上表现不佳。Concat ReLU 通常表现非常好,但在 5+1 CIFAR 上,它的性能急剧下降。
 L2 初始化
 康卡特 ReLU
 连续反向螺旋桨
ReDO
L2
 收缩和扰动
 层范数
Baseline
 置换式 MNIST
Refer to caption
 随机标签 MNIST
Refer to caption
 随机标签 CIFAR
Refer to caption
 L2 初始化
 康卡特 ReLU
 连续反向螺旋桨
ReDO
L2
 收缩和扰动
 层范数
Baseline
 5+1 西法尔
Refer to caption
 持续图像网络
Refer to caption

图 2:使用 Adam 优化器时所有五个问题的总平均在线准确率的比较。L 222 Init 在五种环境中的每种环境中都排在前 3 名。在 5+1 CIFAR 上,它的性能明显优于所有其他方法。Concat ReLU 在所有问题上都表现良好,除了 5+1 CIFAR。


亚当的结果。我们在图 1 和图 2 中绘制了使用 Adam 时所有方法的平均在线任务准确率和总平均在线任务准确率。在所有五个问题上,基线方法要么随着时间的推移显着失去可塑性,要么整体表现不佳。由于我们根据总平均在线准确度选择超参数,因此基线方法有时以较小的学习率运行,这导致可塑性损失较低,但性能仍然相对较差。重要的是,L 222 Init 始终如一地在各种问题上保持高可塑性,并在整个训练过程中保持较高的平均在线任务准确性。L 222 Init 具有与两种复位方法 Continual Backprop 和 ReDO 相当的性能。具体来说,它在五个问题中的四个问题上的表现与 Continual Backprop 一样好或更好。与 ReDO 的性能相比,情况大致相同。


Concat ReLU 在所有问题上都表现良好,除了 5+1 CIFAR 完全失去可塑性。Concat ReLU在随机标签MNIST和随机标签CIFAR上失去了一些可塑性,但整体性能仍然相当高。虽然 L2 显着减轻了置换 MNIST 的可塑性损失,但与 L 222 Init 相比,随机标记 MNIST、随机标记 CIFAR 和 5+1 CIFAR 的塑性损失仍然很大。Shrink & Perturb 确实减轻了所有问题的可塑性损失,但整体性能始终低于 L 222 Init。最后,层范数仅减轻了部分塑性损失。

 置换式 MNIST
Refer to caption
 随机标签 MNIST
Refer to caption
 随机标签 CIFAR
Refer to caption
 5+1 西法尔
Refer to caption
 持续图像网络
Refer to caption
BaselineLayer NormShrink & PerturbReDOL2 InitL2Continual BackpropConcat ReLU

图 3:使用 Vanilla SGD 时所有五个问题的平均在线任务准确率比较。 L 222 Init 始终保持可塑性,而 L2 在置换 MNIST 和随机标签 MNIST 上则不然。


与使用Adam时相比,使用Vanilla SGD时可塑性损失较小,如图3所示。L 222 Init 的性能与 Continual Backprop 类似,并始终如一地减轻其所发生问题的可塑性。相比之下,L2 不适用于置换 MNIST 和随机标签 MNIST。L 222 Init 的表现也与 ReDO相似,尽管 ReDO的性能在种子之间有更大的差异。Concat ReLU 在各种问题上表现良好,但在 Permuted MNIST 上失去了可塑性,在 Continual ImageNet 上的性能较低。与使用 Adam 时不同,L2 Init 在 5+1 CIFAR 上的表现并不优于所有方法。相反,Layer Norm 在此问题上表现最佳。


5.2查看网络内部

 置换式 MNIST
随机标签 MNIST
 重量 量级  功能 SRank  重量 量级  功能 SRank
Refer to caption Refer to caption Refer to caption Refer to caption
 5+1 西法尔  持续图像网络
 重量 量级  功能 SRank  重量 量级  功能 SRank
Refer to caption Refer to caption Refer to caption Refer to caption
BaselineLayer NormShrink & PerturbReDOL2 InitL2Continual BackpropConcat ReLU

图 4:使用 Adam 训练所有智能体时,随时间推移的平均权重大小和特征等级。L 222 Init 保留了相对较小的平均权重量级和较高的特征等级。


虽然塑性损失的原因尚不清楚,但大参数幅度以及特征等级的降低可能会发挥作用。例如,无论输入如何,停止激活的 ReLU 单元都将具有零梯度并且不会更新,因此可能无法适应未来的任务。为了了解 L 222 Init 如何影响神经网络动力学,我们在使用 Adam 优化器进行训练时,绘制了平均权重幅度(L1 范数)以及在每个任务结束时计算的四个问题的平均特征等级(图 4)。


Kumar 等人 [ 2020] 称之为 srank 的矩阵有效秩的度量是从矩阵的奇异值计算得出的。具体来说,使用有序的奇异值 σ1>σ2,σnsubscript𝜎1subscript𝜎2subscript𝜎𝑛\sigma_{1}>\sigma_{2},...\sigma_{n} 集,我们计算 srank 为

srank=minki=1kσij=1nσj1δsranksubscript𝑘superscriptsubscript𝑖1𝑘subscript𝜎𝑖superscriptsubscript𝑗1𝑛subscript𝜎𝑗1𝛿\displaystyle\text{srank}=\min_{k}\frac{\sum_{i=1}^{k}\sigma_{i}}{\sum_{j=1}^{n}\sigma_{j}}\geq 1-\delta


使用 Kumar 等人 [ 2020] δ=0.01𝛿0.01\delta=0.01 之后的阈值。因此,在本例中,srank 是您需要将多少个奇异值相加才能构成 99%percent9999\% 奇异值的总和。


在图 4 中,我们看到 L 222 Init 和 L2 都降低了相对于基线的平均权重幅度。正如 Dohare et al. [ 2021] 所指出的,这在使用 Adam 优化器时可能很重要。由于 Adam 的更新受全局步长或全局步长的小倍数的限制,因此在切换到新任务时,这些权重的相对变化可能很小。然而,性能相当好的代理,如连续反向螺旋桨和Concat ReLU导致惊人的大平均重量大小,因此缺乏任何明显的收获。然而,在 5+1 CIFAR 上,Concat ReLU 的权重相对于其他方法非常大,这可能解释了其性能在图 1 中的急剧下降。


使用 L 时 222 ,有效特征等级小于应用 L 222 Init 时。这是意料之中的,因为 L 222 Init 正在向一组全秩矩阵正则化,并且可能有助于我们在 L 222 Init 中看到的可塑性增加。值得注意的是,Concat ReLU 在问题方面享有很高的功能排名(5+1 CIFAR 除外),这可能有助于其高性能。


5.3再生正则化的消融研究

 置换式 MNISTRefer to caption  随机标签 MNISTRefer to caption  5+1 西法尔Refer to caption
L2 InitL2 Init + ResampleL1 InitHuber Init

图 5:使用 Adam 时 L2 Init、L2 Init + Resample、L1 Init 和 Huber Init 在三个问题上的比较。L2 Init + Resample 在所有环境中都表现不佳,尤其是在随机标签 MNIST 和 5+1 CIFAR 上,它会失去可塑性。L1 Init 在随机标签 MNIST 上的性能与 L2 Init 相匹配,在置换 MNIST 和 5+1 CIFAR 上的表现稍差。Huber Init 在所有三个问题上的性能都与 L2 Init 相当。


向随机参数正则化


使用 L 222 Init,我们朝着初始化时采样的特定固定参数 θ0subscript𝜃0\theta_{0} 进行正则化。按照更类似于 Shrink & Perturb 的过程,我们可以在每个时间步对一组新参数进行采样。也就是说,我们可以从采样的同一分布 θ0subscript𝜃0\theta_{0} 中采样 ϕtsubscriptitalic-ϕ𝑡\phi_{t} ,并让正则化项 θtϕt22superscriptsubscriptnormsubscript𝜃𝑡subscriptitalic-ϕ𝑡22||\theta_{t}-\phi_{t}||_{2}^{2} 代替。在图 5 中,我们比较了使用 Adam 优化器时,L 222 Init 和此变体(L 222 Init + 重采样)在置换 MNIST、随机标签 MIST 和 5+1 CIFAR 上的性能。我们使用与 L 222 Init 相同的超参数扫描为每种方法选择最佳正则化强度。我们发现,对初始参数进行正则化,而不是在每个时间步长对一组新参数进行采样,效果要好得多。

 规范的选择


虽然 L 222 Init 使用 L2 范数,但我们也可以使用参数与其初始值之间差值的 L1 范数。我们称这种方法为 L1 Init,它使用以下损失函数:

reg(θ)=train(θ)+λθθ01subscriptreg𝜃subscripttrain𝜃𝜆subscriptnorm𝜃subscript𝜃01\displaystyle\mathcal{L}_{\text{reg}}(\theta)=\mathcal{L}_{\text{train}}(\theta)+\lambda||\theta-\theta_{0}||_{1}


作为另一种选择,我们可以将 Huber 损失应用于 L1 Init 和 L2 Init 之间的平衡。我们称这种方法为 Huber Init,它使用以下损失函数:

reg(θ)=train(θ)+λHuber(θ,θ0)subscriptreg𝜃subscripttrain𝜃𝜆Huber𝜃subscript𝜃0\displaystyle\mathcal{L}_{\text{reg}}(\theta)=\mathcal{L}_{\text{train}}(\theta)+\lambda\text{Huber}(\theta,\theta_{0})


我们比较了使用 Adam 优化器时 L 222 Init、L1 Init 和 Huber Init 在置换 MNIST、随机标签 MNIST、5+1 CIFAR 和连续 ImageNet 上的性能(见图 4)。我们发现,虽然 L1 Init 减轻了可塑性损失,但在置换 MNIST 和 5+1 CIFAR 上的性能更差。Huber Init 的性能与 L2 Init 相当。

 6结论


最近,人们提出了多种方法来减轻持续学习中的可塑性损失。一类常见且相当成功的方法的特点是定期重新初始化权重子集。但是,重置方法需要算法设计者做出其他决策,例如要重新初始化哪些参数以及重新初始化的频率。在本文中,我们提出了一个非常简单的替代方案,我们称之为 L 222 Init。具体来说,我们添加了一个损失项,该项将参数正则化为初始参数。这鼓励对最近的损失影响不大的参数向初始化方向漂移,因此允许它们被招募以备将来适应。这种方法类似于标准的 L2 正则化,但我们不是朝原点正则化,而是朝初始参数正则化,这确保了权重秩不会崩溃。为了评估 L 222 Init,我们对三个简单的持续学习问题进行了实证研究。我们将 L 222 Init 与一组先前提出的方法进行了比较。L 222 Init 始终如一地保持可塑性,几乎与连续反向螺旋桨的性能相匹配。除了持续反向螺旋桨之外,我们比较的其他方法都至少在一个问题上失去了可塑性,或者整体表现更差。


我们希望我们的方法为未来减轻塑性损失的工作开辟了途径。在未来的工作中,评估 L 222 Init 在更广泛的问题上是有用的,包括回归和 RL 设置。我们的方法可能需要调整,例如使用 L1 而不是 L2 正则化。最后,这项研究只关注保持可塑性,而忽略了遗忘的问题。在实际应用中,减少遗忘和保持可塑性都至关重要。因此,在未来的工作中,研究可塑性和遗忘性是很重要的。这也许可以通过考虑存在重大前向转移的问题来实现,也就是说,在早期任务中学到的信息对未来的任务有帮助。在这样的问题中,增加可塑性的技术很可能是以增加遗忘为代价的。设计能够有效平衡保持可塑性和避免遗忘之间的权衡的方法,是未来工作的一条令人兴奋的途径。

 引用

  •  Abbas 等人 [2023]
    扎希尔·阿巴斯、罗西·赵、约瑟夫·莫达伊尔、亚当·怀特和马洛斯·马查多。持续深度强化学习中的可塑性丧失。arXiv 预印本 arXiv:2303.07507, 2023.
  •  Achille等人[2017]
    亚历山德罗·阿基里(Alessandro Achille),马泰奥·罗韦雷(Matteo Rovere)和斯特凡诺·索阿托(Stefano Soatto)。深度神经网络中的关键学习期。arXiv 预印本 arXiv:1711.08856, 2017.

  • 阿什和亚当斯 [2020]

    乔丹·阿什(Jordan Ash)和瑞安·亚当斯(Ryan P Adams)。关于热启动神经网络训练。神经信息处理系统进展, 33:3884–3894, 2020.
  •  Ashley 等人 [2021]
    迪伦·阿什利(Dylan R Ashley),西娜·吉亚斯(Sina Ghiassian)和理查德·萨顿(Richard S Sutton)。Adam 优化器会加剧灾难性遗忘吗?arXiv 预印本 arXiv:2102.07686, 2021.
  •  Ba 等人 [2016]
    Jimmy Lei Ba、Jamie Ryan Kiros 和 Geoffrey E Hinton。图层归一化。arXiv 预印本 arXiv:1607.06450, 2016.
  •  蔡等人[2021]
    Zhipeng Cai、Ozan Sener 和 Vladlen Koltun。具有自然分布变化的在线持续学习:使用视觉数据的实证研究。在 IEEE/CVF 计算机视觉国际会议论文集,第 8281–8290 页,2021 年。
  •  Chaudhry等人[2018]
    Arslan Chaudhry、Puneet K Dokania、Thalaiyasingam Ajanthan 和 Philip HS Torr。黎曼步行渐进式学习:理解遗忘和不妥协。欧洲计算机视觉会议 (ECCV) 论文集,第 532–547 页,2018 年。
  •  Dohare等人[2021]
    Shibhansh Dohare、Richard S Sutton 和 A Rupam Mahmood。连续反向螺旋桨:具有持续随机性的随机梯度下降。arXiv 预印本 arXiv:2108.06325, 2021.
  •  Dohare等人[2023]
    Shibhansh Dohare、J Fernando Hernandez-Garcia、Parash Rahman、Richard S Sutton 和 A Rupam Mahmood。在深度持续学习中保持可塑性。arXiv 预印本 arXiv:2306.13812, 2023.
  •  Ghunaim 等人 [2023]
    亚西尔·古奈姆、阿德尔·比比、库梅尔·阿尔哈穆德、莫塔西姆·阿尔法拉、哈桑·阿贝德·卡德尔·哈穆德、阿米亚·帕布、菲利普·托尔和伯纳德·加内姆。在线持续学习中的实时评估:一种新范式。arXiv 预印本 arXiv:2302.01047, 2023.

  • Goodfellow等人[2013]

    伊恩·古德费罗、迈赫迪·米尔扎、大萧、亚伦·库尔维尔和约书亚·本吉奥。基于梯度的神经网络中灾难性遗忘的实证研究。arXiv 预印本 arXiv:1312.6211, 2013.
  •  Gulcehre 等人 [2022]
    Caglar Gulcehre、Srivatsan Srinivasan、Jakub Sygnowski、Georg Ostrovski、Mehrdad Farajtabar、Matt Hoffman、Razvan Pascanu 和 Arnaud Doucet。深度离线RL中隐式正则化的实证研究.arXiv 预印本 arXiv:2207.02099, 2022.
  •  Igl 等人 [2020]
    马克西米利安·伊格尔、格雷戈里·法夸尔、耶琳娜·卢克蒂娜、温德林·博默和西蒙·怀特森。深度强化学习中的瞬态非平稳性和泛化。arXiv 预印本 arXiv:2006.05826, 2020.

  • 柯克帕特里克等人[2017]

    詹姆斯·柯克帕特里克、拉兹万·帕斯卡努、尼尔·拉比诺维茨、乔尔·维内斯、纪尧姆·德贾丁斯、安德烈·鲁苏、基兰·米兰、约翰·全、蒂亚戈·拉马略、阿格涅什卡·格拉布斯卡-巴尔温斯卡等。克服神经网络中的灾难性遗忘。美国国家科学院院刊, 114(13):3521–3526, 2017.
  •  Kumar 等人 [2020]
    Aviral Kumar、Rishabh Agarwal、Dibya Ghosh 和 Sergey Levine。隐式欠参数化抑制了数据高效的深度强化学习。arXiv 预印本 arXiv:2010.14498, 2020.
  •  Liu等人[2020]
    刘胜超、Dimitris Papailiopoulos 和 Dimitris Achlioptas。存在不良的全局最小值,SGD 可以达到它们。神经信息处理系统进展, 33:8543–8552, 2020.
  •  莱尔等人 [2022]
    克莱尔·莱尔、马克·罗兰和威尔·达布尼。了解和预防强化学习中的能力损失。arXiv 预印本 arXiv:2204.09560, 2022.
  •  莱尔等人 [2023]
    克莱尔·莱尔、郑泽宇、叶夫根尼·尼基申、贝尔纳多·阿维拉·皮雷斯、拉兹万·帕斯卡努和威尔·达布尼。了解神经网络的可塑性。arXiv 预印本 arXiv:2303.01486, 2023.
  •  Mnih等人[2013]
    Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Alex Graves、Ioannis Antonoglou、Daan Wierstra 和 Martin Riedmiller。用深度强化学习来玩雅达利。arXiv 预印本 arXiv:1312.5602,2013 年。
  •  Nikishin 等人 [2022]
    叶夫根尼·尼基申、马克斯·施瓦泽、皮耶卢卡·多罗、皮埃尔-吕克·培根和亚伦·库尔维尔。深度强化学习中的首要偏差。在机器学习国际会议上,第 16828–16847 页。PMLR,2022 年。
  •  Nikishin 等人 [2023]
    叶夫根尼·尼基申、吴俊赫、乔治·奥斯特洛夫斯基、克莱尔·莱尔、拉兹万·帕斯卡努、威尔·达布尼和安德烈·巴雷托。使用塑性注入进行深度强化学习。arXiv 预印本 arXiv:2305.15555, 2023.
  •  Prabhu 等人 [2023]
    Ameya Prabhu、Zhipeng Cai、Puneet Dokania、Philip Torr、Vladlen Koltun 和 Ozan Sener。在线持续学习,不受存储限制。arXiv 预印本 arXiv:2305.09253, 2023.
  •  Shang et al. [2016]
    商文玲、孙基赫、迪奥戈·阿尔梅达和李宏乐。通过串联整流线性单元理解和改进卷积神经网络。在机器学习国际会议上,第 2217–2225 页。PMLR,2016 年。
  •  Sokar 等人 [2023]
    加达·索卡尔、里沙布·阿加瓦尔、巴勃罗·塞缪尔·卡斯特罗和乌特库·埃夫奇。深度强化学习中的休眠神经元现象。arXiv 预印本 arXiv:2302.12902, 2023.
  •  Zilly 等人 [2021]
    朱利安·齐利、亚历山德罗·阿基里、安德里亚·森西和埃米利奥·弗拉佐利。关于顺序任务学习中的可塑性、不变性和相互冻结的权重。神经信息处理系统进展, 34:12386–12399, 2021.
  •  Zilly等人[2020]
    朱利安·齐利、弗兰齐斯卡·埃克特、拜拉夫·梅塔、安德里亚·森西和埃米利奥·弗拉佐利。顺序深度学习中的负预训练效应及其修复方法的三种方法。2020.

 附录 Appendix

 A.1实验细节

 A.1.1问题


表 1 列出了我们考虑的五个问题中每个问题的参数。

 置换式 MNIST
Parameter Value

每个任务的数据集大小
 10,000 个样本
 批量大小 161616
 任务持续时间
625625625 时间步长 ( 111 纪元)
 任务数 500500500

随机标签 MNIST 和随机标签 CIFAR
Parameter Value

每个任务的数据集大小
  120012001200 样品
 批量大小 161616
 任务持续时间
30,000 个时间步长( 400400400 纪元)
 任务数 505050
 5+1 西法尔
Parameter Value

每个硬任务的数据集大小
  250025002500 样品

每个简单任务的数据集大小
  500500500 样品
 批量大小 323232
 任务持续时间  780 个时间步长
 任务数
303030151515 难, 151515 容易)
 持续图像网络
Parameter Value

每个任务的数据集大小
  120012001200 样品
 批量大小 100100100
 任务持续时间
120 个时间步长( 101010 纪元)
 任务数 500500500

表 1:问题参数。

 A.1.2代理


神经网络架构。对于所有代理,我们在置换 MNIST 和随机标签 MNIST 上使用了 MLP,在随机标签 CIFAR、5+1 CIFAR 和连续 ImageNet 上使用了 CNN。我们选择具有较小隐藏层宽度的网络来研究由于容量限制而加剧塑性损失的环境。特别是,神经网络可以在单个任务上,甚至一系列任务上实现较高的平均在线任务准确率,但是当面对长序列时,会发生可塑性损失。我们使用的 MLP 和 CNN 架构如下:


  • • MLP:我们使用宽度 100100100 和 ReLU 激活两个隐藏层。

  • • CNN:我们使用两个卷积层,然后是两个全连接层。第一个卷积层使用带有 161616 输出通道的核大小 5×5555\times 5 。此图层后面是最大池。第二个还使用带有 161616 输出通道的内核大小 5×5555\times 5 ,并且后面还跟着最大池。全连接层的宽度为 100100100

  • • 所有网络的末端都有一个完全连接的输出层,包括 101010 置换 MNIST、随机标签 MNIST 和随机标签 CIFAR 的输出, 100100100 5+1 CIFAR 的输出, 222 以及连续 ImageNet 的输出。


上述例外是 Concat ReLU,我们使用稍微小一点的隐藏大小,否则 Concat ReLU 的参数数量将是所有其他代理的两倍。具体来说,我们计算要从每个隐藏层中删除的最小神经元部分,使得网络中的参数总数与上述架构中的参数总数一样小。这些分数在 0.090.090.09 置换 MNIST 和随机标签 MNIST、 0.270.270.27 随机标签 CIFAR 和连续 ImageNet 以及 0.310.310.31 5+1 CIFAR 上。


超参数 如第 5 节所述,对于所有问题的所有智能体,我们对每个问题和优化器组合的 333 种子进行了超参数扫描。表 2 和表 3 列出了基于总平均在线精度指标的最佳超参数配置。我们将这些超参数与其他 101010 种子一起使用以获得所有结果。


连续反向螺旋桨。对于 Continual Backprop,我们使用公共 GitHub 存储库中的实现。我们尝试了两种不同的方法来计算效用。第一个称为“贡献”,使用平均重量大小的倒数作为效用的衡量标准。第二个是“适应性贡献”,是 Dohare 等人 [ 2021] 提出的,它也利用了激活幅度乘以传出权重。有关更多详细信息,请参阅 Dohare et al. [ 2021, 2023](以及相关的 GitHub 存储库)。两种实用程序类型在性能上几乎没有任何差异,因此我们展示了他们论文中提出的类型的结果。我们使用的其他连续反向螺旋桨超参数设置是 Dohare 等人 [ 2023] 中报告的设置。具体而言,我们将成熟度阈值设置为 , 100100100 将效用衰减率设置为 0.990.990.99

 A.2其他结果

 置换式 MNIST
Refer to caption
 5+1 西法尔
Refer to caption
 持续图像网络
Refer to caption
BaselineLayer NormShrink & PerturbReDOL2 InitL2Continual BackpropConcat ReLU

图 6:使用 Adam 训练所有智能体时,在每个任务结束时根据保留的任务测试数据计算的准确性。L 222 Init 始终保持可塑性,其性能与其他复位方法 Continual Backprop 和 ReDO 类似。Concat ReLU 在 Continual ImageNet 上表现良好,但在 5+1 CIFAR 上表现不佳。
 置换式 MNIST
Refer to caption
 5+1 西法尔
Refer to caption
 持续图像网络
Refer to caption
BaselineLayer NormShrink & PerturbReDOL2 InitL2Continual BackpropConcat ReLU

图 7:使用 Vanilla SGD 训练所有智能体时,在每个任务结束时根据保留的任务测试数据计算的准确性。虽然结果喜忧参半,但 L2 Init 保持了良好的性能,而 L2 在置换 MNIST 上表现不佳。


对于具有测试数据集(置换 MNIST、5+1 CIFAR 和连续 ImageNet)的问题,我们还在图 6 和图 7 中绘制了每个任务的测试精度。具体来说,在每个任务结束时,我们计算该任务的测试数据的准确性。L2 Init 的泛化性能始终与其他复位方法 Continual Backprop 和 ReDO 相似。


A.3收缩和扰动的连接


在 Ash 和 Adams [ 2020] 中,提出了收缩和扰动方法来减轻可塑性的损失。每次任务切换时,Shrink 和 Perturb 都会将神经网络参数乘以收缩因子 p<1𝑝1p<1 ,然后用一个小噪声向量来扰动 ϵitalic-ϵ\epsilon 它们。当任务切换时,Shrink and Perturb 过程将应用于神经网络,但原则上可以在每个梯度步骤之后应用,其值较大。 p𝑝p 在时间步 t𝑡t 长应用于参数 θtsubscript𝜃𝑡\theta_{t} 的更新为

θt+1=pShrink(θtαtrain(θt)SGD update)+σϵPerturbsubscript𝜃𝑡1subscript𝑝Shrinksubscriptsubscript𝜃𝑡𝛼subscripttrainsubscript𝜃𝑡SGD updatesubscript𝜎italic-ϵPerturb\displaystyle\theta_{t+1}=\underbrace{p}_{\text{Shrink}}(\underbrace{\theta_{t}-\alpha\nabla\mathcal{L}_{\text{train}}(\theta_{t})}_{\text{SGD update}})+\underbrace{\sigma\epsilon}_{\text{Perturb}}


其中 ϵitalic-ϵ\epsilon 是噪声向量, σ𝜎\sigma 是噪声的比例因子。


Ash 和 Adams [ 2020] 建议 ϵitalic-ϵ\epsilon 从初始化时从神经网络参数采样的相同分布中采样,然后缩 σ𝜎\sigma 放为超参数。这是为了确保噪声幅度与每个单独参数对应的神经网络层的宽度和类型相适应。


在连接到我们的方法之前,我们将进一步重写 Shrink and Perturb 更新规则:

θt+1=pθtShrink+σϵPerturbαpShrinktrain(θt)subscript𝜃𝑡1subscript𝑝subscript𝜃𝑡Shrinksubscript𝜎italic-ϵPerturb𝛼subscript𝑝Shrinksubscripttrainsubscript𝜃𝑡\displaystyle\theta_{t+1}=\underbrace{p\theta_{t}}_{\text{Shrink}}+\underbrace{\sigma\epsilon}_{\text{Perturb}}-\alpha\underbrace{p}_{\text{Shrink}}\nabla\mathcal{L}_{\text{train}}(\theta_{t})


相反,我们缩小了两者 θtsubscript𝜃𝑡\theta_{t} 并缩小了梯度。


当使用具有恒定步长 α𝛼\alpha 的 SGD 时,我们的方法可以写在与此非常相似的形式上。具体来说,当应用 L 222 Init 时,我们可以在时间步长 t𝑡t 将参数 θtsubscript𝜃𝑡\theta_{t} 的更新写入

θt+1=(1αλ)θtShrink+αλθ0Perturbαtrain(θt)subscript𝜃𝑡1subscript1𝛼𝜆subscript𝜃𝑡Shrinksubscript𝛼𝜆subscript𝜃0Perturb𝛼subscripttrainsubscript𝜃𝑡\theta_{t+1}=\underbrace{(1-\alpha\lambda)\theta_{t}}_{\text{Shrink}}+\underbrace{\alpha\lambda\theta_{0}}_{\text{Perturb}}-\alpha\nabla\mathcal{L}_{\text{train}}(\theta_{t})


其中 θ0subscript𝜃0\theta_{0} 是时间步长 00 处的初始参数,而不是随机噪声,梯度没有缩小。这种形式可以通过获取 L 222 Init 增强损失函数的梯度,将其代入 SGD 更新规则,然后分解出来 θtsubscript𝜃𝑡\theta_{t} 来推导。


L 222 Init 和 Shrink and Perturt 之间有四个看似很小但很重要的区别。首先,我们的方法只有一个超参数 λ𝜆\lambda ,而不是两个。这是因为收缩和噪声比例因子与 λ𝜆\lambdap=(1αλ)𝑝1𝛼𝜆p=(1-\alpha\lambda)σ=αλ𝜎𝛼𝜆\sigma=\alpha\lambda 有关。此外,收缩率和噪声标度参数都与步长有关。其次,我们的方法正则化为初始参数,而不是来自初始分布的随机样本。第三,梯度没有缩小。最后,当使用 Adam 时,两种方法之间的上述联系不再成立,原因与使用 Adam 时 L 222 正则化和权重衰减不等价的原因相同。


置换MNIST上的最优超参数
Agent Optimizer
最优超参数
Baseline SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
 层范数 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
 L 222 初始化 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
L2 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
 收缩和扰动 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, p=11e4𝑝11e4p=1-1\mathrm{e}{-4}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
 连续反向螺旋桨 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, r=1e4𝑟1e4r=1\mathrm{e}{-4}
 康卡特 ReLU SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
ReDO SGD
α=1e2𝛼1e2\alpha=1\mathrm{e}{-2} ,回收周期 = 625,回收阈值 = 0
\hdashlineBaseline Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}
 层范数 Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
 L 222 初始化 Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
 L2 起源 Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
 收缩和扰动 Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, p=11e3𝑝11e3p=1-1\mathrm{e}{-3}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
 连续反向螺旋桨 Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, r=1e4𝑟1e4r=1\mathrm{e}{-4}
 康卡特 ReLU Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
ReDO Adam
α=1e3𝛼1e3\alpha=1\mathrm{e}{-3} ,回收周期 = 625,回收阈值 = 0

随机标签MNIST上的最佳超参数
Agent Optimizer
最优超参数
Baseline SGD α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
 层范数 SGD α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
L222 Init SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
L2 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
Shrink and Perturb SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, p=11e4𝑝11e4p=1-1\mathrm{e}-4, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
Continual Backprop SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, r=1e4𝑟1e4r=1\mathrm{e}{-4}
Concat ReLU SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
ReDO SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, recycle period = 30000, recycle threshold = 0.1
\hdashlineBaseline Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}
Layer Norm Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}
L222 Init Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
L2 Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
Shrink and Perturb Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}, p=11e4𝑝11e4p=1-1\mathrm{e}{-4}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
Continual Backprop Adam α=1e3,r=1e4formulae-sequence𝛼1e3𝑟1e4\alpha=1\mathrm{e}{-3},r=1\mathrm{e}{-4}
Concat ReLU Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
ReDO Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, recycle period = 30000, recycle threshold = 0.1
Optimal Hyper-parameters on Random Label CIFAR
Agent Optimizer Optimal Hyper-parameters
Baseline SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
Layer Norm SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
L222 Init SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
L2 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
Shrink & Perturb SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, p=11e4𝑝11e4p=1-1\mathrm{e}{-4}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
Continual Backprop SGD α=1e2,r=1e4formulae-sequence𝛼1e2𝑟1e4\alpha=1\mathrm{e}{-2},r=1\mathrm{e}{-4}
Concat ReLU SGD α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
ReDO SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, recycle period = 30000, recycle threshold = 0.1
\hdashlineBaseline Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
Layer Norm Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
L222 Init Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
L2 Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
Shrink & Perturb Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, p=11e4𝑝11e4p=1-1\mathrm{e}{-4}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
Continual Backprop Adam α=1e3,r=1e4formulae-sequence𝛼1e3𝑟1e4\alpha=1\mathrm{e}{-3},r=1\mathrm{e}{-4}
Concat ReLU Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
ReDO Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}, recycle period = 30000, recycle threshold = 0.1
Table 2: Agent optimal hyper-parameters on Permuted MNIST, Random Label MNIST, and Random Label CIFAR. For each agent, we a hyper-parameter sweep over 333 seeds and selected the hyper-parameters which corresponded to maximum total average online accuracy, averaged across the 333 seeds.
Optimal Hyper-parameters on 5+1 CIFAR
Agent Optimizer Optimal Hyper-parameters
Baseline SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
Layer Norm SGD α=0.1𝛼0.1\alpha=0.1
L222 Init SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e5𝜆1e5\lambda=1\mathrm{e}{-5}
L2 SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, λ=1e4𝜆1e4\lambda=1\mathrm{e}{-4}
Shrink & Perturb SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, p=11e5𝑝11e5p=1-1\mathrm{e}{-5}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
Continual Backprop SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, r=1e4𝑟1e4r=1\mathrm{e}{-4}
Concat ReLU SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
ReDO SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}, recycle period = 1560, recycle threshold = 0
\hdashlineBaseline Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}
Layer Norm Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}
L222 Init Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, λ=1e2𝜆1e2\lambda=1\mathrm{e}{-2}
L2 Origin Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, λ=1e3𝜆1e3\lambda=1\mathrm{e}{-3}
Shrink & Perturb Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, p=11e4𝑝11e4p=1-1\mathrm{e}{-4}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
Continual Backprop Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, r=1e4𝑟1e4r=1\mathrm{e}{-4}
Concat ReLU Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
ReDO Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, recycle period = 1560, recycle threshold = 0
Optimal Hyper-parameters on Continual ImageNet
Agent Optimizer Optimal Hyper-parameters
Baseline SGD α=0.1𝛼0.1\alpha=0.1
Layer Norm SGD α=0.1𝛼0.1\alpha=0.1
L222 Init SGD 0.10.10.1, λ=1e3𝜆1e3\lambda=1\mathrm{e}{-3}
L2 SGD 0.10.10.1, λ=1e3𝜆1e3\lambda=1\mathrm{e}{-3}
Shrink and Perturb SGD α=0.1𝛼0.1\alpha=0.1, p=11e4𝑝11e4p=1-1\mathrm{e}{-4}, σ=1e4𝜎1e4\sigma=1\mathrm{e}{-4}
Continual Backprop SGD α=0.1𝛼0.1\alpha=0.1, r=1e4𝑟1e4r=1\mathrm{e}{-4}
Concat ReLU SGD α=1e2𝛼1e2\alpha=1\mathrm{e}{-2}
ReDO SGD α=0.1𝛼0.1\alpha=0.1, recycle period = 600, recycle threshold = 0.1
\hdashlineBaseline Adam α=1e4𝛼1e4\alpha=1\mathrm{e}{-4}
Layer Norm Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
L222 Init Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, λ=1e3𝜆1e3\lambda=1\mathrm{e}{-3}
L2 Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, λ=1e3𝜆1e3\lambda=1\mathrm{e}{-3}
Shrink and Perturb Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, p=11e4𝑝11e4p=1-1\mathrm{e}{-4}, σ=1e2𝜎1e2\sigma=1\mathrm{e}{-2}
Continual Backprop Adam α=1e3,r=1e4formulae-sequence𝛼1e3𝑟1e4\alpha=1\mathrm{e}{-3},r=1\mathrm{e}{-4}
Concat ReLU Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}
ReDO Adam α=1e3𝛼1e3\alpha=1\mathrm{e}{-3}, recycle period = 120, recycle threshold = 0
Table 3: Agent optimal hyper-parameters on 5+1 CIFAR and Continual ImageNet. For each agent, we a hyper-parameter sweep over 333 seeds and selected the hyper-parameters which corresponded to maximum total average online accuracy, averaged across the 333 seeds.