ICML24 | 无标签样本的标签编码风险最小化(Label-Encoding Risk Minimization)
一. 前言
本篇博文向大家介绍我们最新发表在 ICML 24 上的一项研究《Rethinking Guidance Information to Utilize Unlabeled Samples: A Label Encoding Perspective》。该论文提出了标签编码风险最小化(Label-Encoding Risk Minimization, LERM),旨在寻找一种更加精确的指导信息用于监督无标签样本的学习,以提升模型的泛化性能。实验结果表明,LERM 可以作为熵最小化(Entropy Minimization, EntMin)的一种优雅替代。
论文地址:https://arxiv.org/abs/2406.02862
论文源码:GitHub - LERM
二. 问题
在有标签样本极其匮乏但无标签样本充足的场景(例如半监督学习、迁移学习)中,如何有效地利用无标签样本以提升模型的泛化性能?
三. 方法
3.1 符号定义
令 \mathcal{D}_l = \{ (\mathbf{x}_i^l, \mathbf{y}_i^l) \}_{i = 1}^{n_l} 表示有标签样本集合,其中 \mathbf{x}_i^l 表示第 i 个有标签样本, \mathbf{y}_i^l 表示 \mathbf{x}_i^l 对应的独热标签编码(one-hot label encoding);类似地,令 \mathcal{D}_u = \{ (\mathbf{x}_i^u, \mathbf{y}_i^u) \}_{i = 1}^{n_u} 表示无标签样本集合,其中 \mathbf{x}_i^u 表示第 i 个无标签样本, \mathbf{y}_i^u 表示 \mathbf{x}_i^u 对应的独热标签编码(one-hot label encoding)。此外,令 g(\cdot) ,f(\cdot) 和 \mathcal{L} (\cdot) 分别表示特征编码器,标签分类器和分类损失。
注:文中的标签编码默认指代独热标签编码,为简洁起见,后续介绍中省略独热二字。
3.2 背景介绍
众所周知,经验风险最小化(Empirical Risk Minimization, ERM)已经被广泛应用于监督学习场景下。ERM 利用每个有标签样本的标签编码监督每个有标签样本的学习。据此,ERM 被构建为:
\min_{ f, g} = \frac{1}{n_l} \sum_{i = 1}^{n_l} \mathcal{L} \big[ f (g(\mathbf{x}_i^l)), \mathbf{y}_i^l \big] \quad \quad \quad \quad (1)
由于无标签样本不具备精确的标签编码,ERM 无法直接应用于无标签样本。为了解决此问题,一种直接的扩展方式是熵最小化(Entropy Minimization, EntMin)。EntMin 利用每个无标签样本的软标签编码(soft-label encoding)监督每个无标签样本的学习,其中软标签编码由一个模型在学习过程中提供。据此,EntMin 被构建为:
\min_{f, g} = - \frac{1}{n_u} \sum_{i = 1}^{n_u} (\widetilde{\mathbf{y}}_i^u)^\top \ln \widetilde{\mathbf{y}}_i^u \quad \quad \quad \quad (2)
其中, \widetilde{\mathbf{y}}_i^u = f (g(\mathbf{x}_i^u)) \in \mathbb{R}^C 是 \mathbf{x}_i^u的软标签编码,它的第 c 个元素 \widetilde{y}_{i, c}^u 表示 \mathbf{x}_i^u 属于第 c 类的概率。
EntMin 可以有效地增强分类器的预测判别性。然而,由于软标签编码并不是精确的标签编码,EntMin 容易受到大类(即有标签样本数较多的类别)的影响,导致许多无标签样本被归类到大类,从而损害分类器的预测多样性,使模型难以应对标签不平衡的实际情况。
因此,是否可以寻找到更加精确的指导信息用于监督无标签样本的学习呢?
3.3 方法动机
为了解决上述问题,本文通过分析 ERM 的优化目标(1),发现属于同一类别的有标签样本共享相同的标签编码,这意味着标签编码只与类别信息相关。如图 1 (a) 所示,共有 6 个有标签样本,分别属于 3 个不同的类别,但它们最终只被映射至 3 个标签编码:[1, 0, 0],[0, 1, 0] 和 [0, 0, 1]。换句话说,在 ERM 中,属于同一类别的有标签样本的指导信息是该类别对应的标签编码。在有标签样本和无标签样本类别集合相同的任务中,这些类别的标签编码同样适用于无标签样本。如图 1 (b) 所示,共有 6 个无标签样本,分别属于 3 个不同的类别。尽管无法获取每个类别对应的真实标签编码,但可以确定它们所属的 3 个不同类别的标签编码仍然是 [1, 0, 0],[0, 1, 0] 和 [0, 0, 1]。这一发现启发了 LERM 的设计,即利用这些类别的标签编码来指导无标签样本的学习。
然而,由于无法获取每个无标签样本的标签编码,无法像有标签样本那样直接监督其学习。基于上述分析,标签编码和类别信息的一一对应关系提供了一种解决方法:首先使用无标签样本估计每个类别的标签编码,然后利用每个类别的真实标签编码监督估计的标签编码。具体而言,在学习过程中,模型会提供每个无标签样本的预测类别分布(即每个无标签样本属于各个类别的概率)。对于每个类别,LERM 首先计算所有无标签样本预测类别分布的加权平均(本文称之为预测均值),理论上可以视为该类别真实标签编码的一个估计。最后,LERM 通过减少每个类别估计的标签编码与真实标签编码之间的差异(本文称之为标签编码风险),来指导无标签样本的学习。
3.4 核心公式
根据上述分析,对于每个类别,其预测均值被构建为:
\mathbf{m}_c^u = \frac{1}{\sum_{i = 1}^{n_u} \widetilde{y}_{i, c}^u} (\sum_{i = 1}^{n_u} \widetilde{y}_{i, c}^u \widetilde{\mathbf{y}}_i^u) \quad \quad \quad \quad (3)
对于所有的预测均值\{\mathbf{m}_i^u\}_{i = 1}^C ,其属性被总结在定理 1。
定理 1. \mathbf{m}_c^u 满足如下属性:
- \mathbf{1}^\top \mathbf{m}_c^u = 1,其中 \mathbf{1}^\top \in \mathbb{R}^C 表示一个全 1 向量
- 0 \leq m_{c, j}^u \leq 1, \forall j \in \{ 1, \cdots, C \} ,其中 m_{c, j}^u 表示 \mathbf{m}_c^u 的第 j 个元素
- 若 \widetilde{\mathbf{y}}_i^u 等于 \mathbf{x}_i^u 的真实标签编码对于每个 i \in \{1, \cdots, n_u \} ,则 \mathbf{m}_c^u = \mathbf{e}_c 。这里, \mathbf{e}_c 表示类别 c 的真实标签编码,其第 c 个元素为 1,其余元素为 0。
- 若对于某个 c \in \{1, \cdots, C \} ,\mathbf{m}_c^u = \mathbf{e}_c ,则对于任意的 i \in \{1, \cdots, n_u \}, \widetilde{\mathbf{y}}_i^u 要么等于 \mathbf{e}_c ,要么满足 \widetilde{y}_{i, c}^u = 0, 0 \leq \widetilde{y}_{i, c}^u \leq 1, \forall k \neq c 。
- 若对于任意的 c \in \{1, \cdots, C \} ,\mathbf{m}_c^u = \mathbf{e}_c ,则对于任意的 i \in \{1, \cdots, n_u \}, \widetilde{\mathbf{y}}_i^u 是一个独热向量,其只有一个元素为 1,其余元素为 0。
具体证明可以参考原论文附录 A.1。基于定理 1 中的属性 3 可知,当 \widetilde{\mathbf{y}}_i^u 接近于 \mathbf{x}_i^u 的真实标签编码时,\mathbf{m}_c^u 试图接近于类别 c 的真实标签编码。据此,第 c 个类的预测均值 \mathbf{m}_c^u 可以被视为类别 c 标签编码的一个估计。
基于上述理论分析,LERM被构建如下:
\min_{f, g} = \frac{1}{C} \sum_{c = 1}^C \mathcal{L} (\mathbf{m}_c^u, \mathbf{e}_c) \quad \quad \quad \quad (4)
据此可知,LERM 是一种类别特定(category-specific)的方法,其以相同的权重 \frac{1}{C} 最优化每个类别,从而消除了大类的影响,在一定程度上确保了模型的预测多样性。此外,根据属性 4 和 5 可知,当 \mathbf{m}_c^u逐渐接近于类别 c 的真实标签编码时, \widetilde{\mathbf{y}}_i^u 逐渐接近于一个独热向量,在一定程度上确保了模型的预测判别性。
与 EntMin 类似,在实际使用中,LERM 需要结合已有的方法一起进行学习,以避免学习的随机性。例如,LERM 和 ERM 结合的优化目标如下:
\min_{f, g} = \frac{1}{n} \sum_{i = 1}^{n_l} \mathcal{L} \big[ f (g(\mathbf{x}_i^l)), \mathbf{y}_i^l \big] + \frac{\lambda}{C} \sum_{c = 1}^C \mathcal{L} (\mathbf{m}_c^u, \mathbf{e}_c) \quad \quad \quad \quad (5)
其中, \lambda 是一个超参数用于控制 LERM 的重要度。
四. 实验
本文在半监督学习、无监督领域适配和半监督异构领域适配的数据集上分别进行实验,当现有的方法结合了 LERM 后,均取得了一定的性能提升。下文简要展示一部分实验结果,更多实验结果请参考原论文。
4.1 半监督学习实验
下表展示了在半监督设置下的实验结果。实验结果表明,在有标签样本数量极其有限的情况下,LERM 能够有效提高现有方法的性能,从而证明了 LERM 的有效性和通用性。
4.2 预测判别性分析
下表展示了在半监督学习情况下,ERM、ERM + EntMin 和 ERM + LERM 在 CIFAR-10 数据集上的预测判别性结果。具体而言,本文分别记录了 ERM、ERM + EntMin 和 ERM + LERM 训练完成后无标签样本的熵值。熵值越小,表明预测判别性越高。可以发现,ERM + LERM 和 ERM + EntMin 的熵值显著低于 ERM 的熵值。这是因为 ERM 并没有约束无标签样本的学习,无法确保模型的预测判别性。尽管 LERM 并没有直接最小化无标签样本的熵,但 ERM + LERM 与 ERM + EntMin 的熵值相近,这表明 LERM 在一定程度上能够确保模型的预测判别性。
4.3 预测多样性分析
下图展示了在半监督学习情况下,ERM、ERM + EntMin 和 ERM + LERM 在 CIFAR-10 数据集上的预测多样性结果。具体而言,本文利用 CIFAR-10 数据集构建了一个类别不平衡的数据集。如下图 (a) 所示,在前 8 个类别中,每个类别的有标签样本数和无标签样本数均为 1000,而在后两个类别中,每个类别的有标签样本数为 20,无标签样本数为 1000。下图 (b) 和 (c) 分别给出了 ERM + EntMin 和 ERM + LERM 的分类结果。可以发现,ERM + LERM 对后两个类别的无标签样本分类效果显著优于 ERM + EntMin,这表明 LERM 对类别不平衡设置不敏感,并且在一定程度上能够确保模型的预测多样性。
五. 总结
本文提出了 LERM,有效地利用了无标签样本以提升模型性能。LERM 可以视为 ERM 在无标签样本上的一种扩展。与 ERM 类似,LERM 也采用标签编码作为指导信息来监督无标签样本的学习。然而,LERM 与 ERM 不同之处在于,它首先利用无标签样本估计每个类别的标签编码,然后利用每个类别真实的标签编码监督估计的标签编码,以确保预测的判别性和多样性。相比于 EntMin,其可以在维持预测判别性的同时确保预测的多样性。因此,希望后续 LERM 可以成为 EtMin 的一种优雅且有效的替代。
是第 3 节吗?那里是基础知识,介绍 ERM 的
您这个问题问的很好、也很深入。我尝试解释一下,看看能不能一定程度上解决您的疑惑:
1. LERM 并不能保证将所有的无标签样本都 100% 分对,会出现您说的某些样本被越分越错的情况。
2. 我个人认为 LERM 和 EntMin 最主要的区别在于 EntMin 是 sample-specific 的,而 LERM 是 category-specific 的。具体而言,在优化 entropy 的时候,所有的无标签样本只关注自身的熵,不会有一个全局意识,即大家还需要保证这个类别的标签编码最后是正确的,所以 EntMin 容易受到大类(有标签样本比较多的类别)的影响,即一开始被分错了,后续很难被矫正了;而 LERM 是 category-specific 的,在优化 label-encoding risk 的时候,无标签样本会有一个全局意识,即需要保证这个类别的标签编码最后是正确的,所以如果一开始有些无标签样本被分错了,会有一部分(很难保证全部)样本被矫正回来,进而确保这个类别的标签编码最后是正确的,所以相较于 EntMin,可以一定程度上抵御大类的影响。
3. 不管是 LERM 还是 EntMin,都是需要结合 ERM 一起来使用,这样可以一定程度上保证无标签样本的学习并不是随机的,也就是一开始的就有一些无标签样本被分对了。因此,在这些分对的无标签样本的作用下,LERM 可以再进一步校对被分错的无标签样本,因为它需要确保这个类别的标签编码是准确的(category-specific);但是 EntMin 很难基于其余的无标签样本矫正一些被分错的无标签样本,因为它主要在关注每个无标签样本本身(sample-specific)。