这是用户在 2024-6-17 22:03 为 https://zhuanlan.zhihu.com/p/702271330 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
ICML24 | 无标签样本的标签编码风险最小化(Label-Encoding Risk Minimization)

ICML24 | 无标签样本的标签编码风险最小化(Label-Encoding Risk Minimization)

29 人赞同了该文章
发布于 2024-06-08 18:56・IP 属地北京 ,编辑于 2024-06-11 19:42・IP 属地北京
目录
收起
一. 前言
二. 问题
三. 方法
3.1 符号定义
3.2 背景介绍
3.3 方法动机
3.4 核心公式
四. 实验
4.1 半监督学习实验
4.2 预测判别性分析
4.3 预测多样性分析
五. 总结

一. 前言

本篇博文向大家介绍我们最新发表在 ICML 24 上的一项研究《Rethinking Guidance Information to Utilize Unlabeled Samples: A Label Encoding Perspective》。该论文提出了标签编码风险最小化(Label-Encoding Risk Minimization, LERM),旨在寻找一种更加精确的指导信息用于监督无标签样本的学习,以提升模型的泛化性能。实验结果表明,LERM 可以作为熵最小化(Entropy Minimization, EntMin)的一种优雅替代。

论文地址:arxiv.org/abs/2406.0286

论文源码:GitHub - LERM

二. 问题

有标签样本极其匮乏但无标签样本充足的场景(例如半监督学习、迁移学习)中,如何有效地利用无标签样本以提升模型的泛化性能?

三. 方法

3.1 符号定义

Dl={(xil,yil)}i=1nl\mathcal{D}_l = \{ (\mathbf{x}_i^l, \mathbf{y}_i^l) \}_{i = 1}^{n_l} 表示有标签样本集合,其中 xil\mathbf{x}_i^l 表示第 ii 个有标签样本, yil\mathbf{y}_i^l 表示 xil\mathbf{x}_i^l 对应的独热标签编码(one-hot label encoding);类似地,令 Du={(xiu,yiu)}i=1nu\mathcal{D}_u = \{ (\mathbf{x}_i^u, \mathbf{y}_i^u) \}_{i = 1}^{n_u} 表示无标签样本集合,其中 xiu\mathbf{x}_i^u 表示第 ii 个无标签样本, yiu\mathbf{y}_i^u 表示 xiu\mathbf{x}_i^u 对应的独热标签编码(one-hot label encoding)。此外,令 g()g(\cdot)f()f(\cdot)L()\mathcal{L} (\cdot) 分别表示特征编码器,标签分类器和分类损失。

注:文中的标签编码默认指代独热标签编码,为简洁起见,后续介绍中省略独热二字

3.2 背景介绍

众所周知,经验风险最小化(Empirical Risk Minimization, ERM)已经被广泛应用于监督学习场景下。ERM 利用每个有标签样本的标签编码监督每个有标签样本的学习。据此,ERM 被构建为:

minf,g=1nli=1nlL[f(g(xil)),yil]\min_{ f, g} = \frac{1}{n_l} \sum_{i = 1}^{n_l} \mathcal{L} \big[ f (g(\mathbf{x}_i^l)), \mathbf{y}_i^l \big] \quad \quad \quad \quad (1)

由于无标签样本不具备精确的标签编码,ERM 无法直接应用于无标签样本。为了解决此问题,一种直接的扩展方式是熵最小化(Entropy Minimization, EntMin)。EntMin 利用每个无标签样本的软标签编码(soft-label encoding)监督每个无标签样本的学习,其中软标签编码由一个模型在学习过程中提供。据此,EntMin 被构建为:

minf,g=1nui=1nu(y~iu)lny~iu\min_{f, g} = - \frac{1}{n_u} \sum_{i = 1}^{n_u} (\widetilde{\mathbf{y}}_i^u)^\top \ln \widetilde{\mathbf{y}}_i^u \quad \quad \quad \quad (2)

其中, y~iu=f(g(xiu))RC\widetilde{\mathbf{y}}_i^u = f (g(\mathbf{x}_i^u)) \in \mathbb{R}^Cxiu\mathbf{x}_i^u的软标签编码,它的第 cc 个元素 y~i,cu\widetilde{y}_{i, c}^u 表示 xiu\mathbf{x}_i^u 属于第 cc 类的概率。

EntMin 可以有效地增强分类器的预测判别性。然而,由于软标签编码并不是精确的标签编码EntMin 容易受到大类(即有标签样本数较多的类别)的影响,导致许多无标签样本被归类到大类,从而损害分类器的预测多样性,使模型难以应对标签不平衡的实际情况。

因此,是否可以寻找到更加精确的指导信息用于监督无标签样本的学习呢?

3.3 方法动机

为了解决上述问题,本文通过分析 ERM 的优化目标(1),发现属于同一类别的有标签样本共享相同的标签编码,这意味着标签编码只与类别信息相关。如图 1 (a) 所示,共有 6 个有标签样本分别属于 3 个不同的类别,但它们最终只被映射至 3 个标签编码:[1, 0, 0],[0, 1, 0] 和 [0, 0, 1]。换句话说,在 ERM 中,属于同一类别的有标签样本的指导信息是该类别对应的标签编码。在有标签样本和无标签样本类别集合相同的任务中,这些类别的标签编码同样适用于无标签样本。如图 1 (b) 所示,共有 6 个无标签样本,分别属于 3 个不同的类别尽管无法获取每个类别对应的真实标签编码,但可以确定它们所属的 3 个不同类别的标签编码仍然是 [1, 0, 0],[0, 1, 0] 和 [0, 0, 1]。这一发现启发了 LERM 的设计,即利用这些类别的标签编码来指导无标签样本的学习

然而,由于无法获取每个无标签样本的标签编码,无法像有标签样本那样直接监督其学习。基于上述分析,标签编码和类别信息的一一对应关系提供了一种解决方法:首先使用无标签样本估计每个类别的标签编码,然后利用每个类别的真实标签编码监督估计的标签编码。具体而言,在学习过程中,模型会提供每个无标签样本的预测类别分布(即每个无标签样本属于各个类别的概率)。对于每个类别LERM 首先计算所有无标签样本预测类别分布的加权平均(本文称之为预测均值),理论上可以视为该类别真实标签编码的一个估计。最后,LERM 通过减少每个类别估计的标签编码与真实标签编码之间的差异(本文称之为标签编码风险),来指导无标签样本的学习。

3.4 核心公式

根据上述分析,对于每个类别,其预测均值被构建为:

mcu=1i=1nuy~i,cu(i=1nuy~i,cuy~iu)(3)\mathbf{m}_c^u = \frac{1}{\sum_{i = 1}^{n_u} \widetilde{y}_{i, c}^u} (\sum_{i = 1}^{n_u} \widetilde{y}_{i, c}^u \widetilde{\mathbf{y}}_i^u) \quad \quad \quad \quad (3)

对于所有的预测均值{miu}i=1C\{\mathbf{m}_i^u\}_{i = 1}^C ,其属性被总结在定理 1。

定理 1. mcu\mathbf{m}_c^u 满足如下属性:

  1. 1mcu=1\mathbf{1}^\top \mathbf{m}_c^u = 1,其中 1RC\mathbf{1}^\top \in \mathbb{R}^C 表示一个全 1 向量
  2. 0mc,ju1,j{1,,C}0 \leq m_{c, j}^u \leq 1, \forall j \in \{ 1, \cdots, C \} ,其中 mc,jum_{c, j}^u 表示 mcu\mathbf{m}_c^u 的第 jj 个元素
  3. y~iu\widetilde{\mathbf{y}}_i^u 等于 xiu\mathbf{x}_i^u 的真实标签编码对于每个 i{1,,nu}i \in \{1, \cdots, n_u \} ,则 mcu=ec\mathbf{m}_c^u = \mathbf{e}_c 。这里, ec\mathbf{e}_c 表示类别 cc 的真实标签编码,其第 cc 个元素为 1,其余元素为 0。
  4. 若对于某个 c{1,,C}c \in \{1, \cdots, C \}mcu=ec\mathbf{m}_c^u = \mathbf{e}_c ,则对于任意的 i{1,,nu}i \in \{1, \cdots, n_u \}y~iu\widetilde{\mathbf{y}}_i^u 要么等于 ec\mathbf{e}_c ,要么满足 y~i,cu=0,0y~i,cu1,kc\widetilde{y}_{i, c}^u = 0, 0 \leq \widetilde{y}_{i, c}^u \leq 1, \forall k \neq c
  5. 若对于任意的 c{1,,C}c \in \{1, \cdots, C \}mcu=ec\mathbf{m}_c^u = \mathbf{e}_c ,则对于任意的 i{1,,nu}i \in \{1, \cdots, n_u \}y~iu\widetilde{\mathbf{y}}_i^u 是一个独热向量,其只有一个元素为 1,其余元素为 0。

具体证明可以参考原论文附录 A.1。基于定理 1 中的属性 3 可知,当 y~iu\widetilde{\mathbf{y}}_i^u 接近于 xiu\mathbf{x}_i^u 的真实标签编码时,mcu\mathbf{m}_c^u 试图接近于类别 cc 的真实标签编码。据此,cc 个类的预测均值 mcu\mathbf{m}_c^u 可以被视为类别 cc 标签编码的一个估计

基于上述理论分析,LERM被构建如下:

minf,g=1Cc=1CL(mcu,ec)(4)\min_{f, g} = \frac{1}{C} \sum_{c = 1}^C \mathcal{L} (\mathbf{m}_c^u, \mathbf{e}_c) \quad \quad \quad \quad (4)

据此可知,LERM 是一种类别特定(category-specific)的方法,其以相同的权重 1C\frac{1}{C} 最优化每个类别,从而消除了大类的影响,在一定程度上确保了模型的预测多样性。此外,根据属性 4 和 5 可知,当 mcu\mathbf{m}_c^u逐渐接近于类别 cc 的真实标签编码时, y~iu\widetilde{\mathbf{y}}_i^u 逐渐接近于一个独热向量,在一定程度上确保了模型的预测判别性

与 EntMin 类似,在实际使用中,LERM 需要结合已有的方法一起进行学习,以避免学习的随机性。例如,LERM 和 ERM 结合的优化目标如下:

minf,g=1ni=1nlL[f(g(xil)),yil]+λCc=1CL(mcu,ec)(5)\min_{f, g} = \frac{1}{n} \sum_{i = 1}^{n_l} \mathcal{L} \big[ f (g(\mathbf{x}_i^l)), \mathbf{y}_i^l \big] + \frac{\lambda}{C} \sum_{c = 1}^C \mathcal{L} (\mathbf{m}_c^u, \mathbf{e}_c) \quad \quad \quad \quad (5)

其中, λ\lambda 是一个超参数用于控制 LERM 的重要度。

四. 实验

本文在半监督学习、无监督领域适配和半监督异构领域适配的数据集上分别进行实验,当现有的方法结合了 LERM 后,均取得了一定的性能提升。下文简要展示一部分实验结果,更多实验结果请参考原论文。

4.1 半监督学习实验

下表展示了在半监督设置下的实验结果。实验结果表明,在有标签样本数量极其有限的情况下,LERM 能够有效提高现有方法的性能,从而证明了 LERM 的有效性和通用性。

4.2 预测判别性分析

下表展示了在半监督学习情况下,ERM、ERM + EntMin 和 ERM + LERM 在 CIFAR-10 数据集上的预测判别性结果。具体而言,本文分别记录了 ERM、ERM + EntMin 和 ERM + LERM 训练完成后无标签样本的熵值。熵值越小,表明预测判别性越高。可以发现,ERM + LERM 和 ERM + EntMin 的熵值显著低于 ERM 的熵值。这是因为 ERM 并没有约束无标签样本的学习,无法确保模型的预测判别性。尽管 LERM 并没有直接最小化无标签样本的熵,但 ERM + LERM 与 ERM + EntMin 的熵值相近,这表明 LERM 在一定程度上能够确保模型的预测判别性

4.3 预测多样性分析

下图展示了在半监督学习情况下,ERM、ERM + EntMin 和 ERM + LERM 在 CIFAR-10 数据集上的预测多样性结果。具体而言,本文利用 CIFAR-10 数据集构建了一个类别不平衡的数据集。如下图 (a) 所示,在前 8 个类别中,每个类别的有标签样本数和无标签样本数均为 1000,而在后两个类别中,每个类别的有标签样本数为 20,无标签样本数为 1000。下图 (b) 和 (c) 分别给出了 ERM + EntMin 和 ERM + LERM 的分类结果。可以发现,ERM + LERM 对后两个类别的无标签样本分类效果显著优于 ERM + EntMin,这表明 LERM 对类别不平衡设置不敏感,并且在一定程度上能够确保模型的预测多样性

五. 总结

本文提出了 LERM,有效地利用了无标签样本以提升模型性能。LERM 可以视为 ERM 在无标签样本上的一种扩展。与 ERM 类似,LERM 也采用标签编码作为指导信息来监督无标签样本的学习。然而,LERM 与 ERM 不同之处在于,它首先利用无标签样本估计每个类别的标签编码,然后利用每个类别真实的标签编码监督估计的标签编码,以确保预测的判别性和多样性。相比于 EntMin,其可以在维持预测判别性的同时确保预测的多样性。因此,希望后续 LERM 可以成为 EtMin 的一种优雅且有效的替代。

发布于 2024-06-08 18:56・IP 属地北京 ,编辑于 2024-06-11 19:42・IP 属地北京
欢迎参与讨论

10 条评论
默认
最新
Breann
3.1节中,为什么无标记样本会有y_i呢
11 小时前 · IP 属地江苏
姚远
作者

是第 3 节吗?那里是基础知识,介绍 ERM 的

9 小时前 · IP 属地北京
Breann
3.3.1节,符号定义那儿
10 小时前 · IP 属地江苏
Breann
您好,整篇文章看下来,感觉LERM本质上和Entropy Minimization有点相似:他们都是鼓励模型越来越自信。具体来说,D_u中的每一个样本都参与标签编码,然而在标签编码过程中,即使某一个样本被预测错了,但他只要往这个错误的方向(也就是更自信的方向)预测,他仍然是可以满足LERM的优化目标的。那相比于entropy minimization的不同之处是在于解耦成多个标记编码,然后做一个平衡吗? 如有理解错误的地方,非常希望您能够解答,非常感谢!
10 小时前 · IP 属地江苏
姚远
作者

您这个问题问的很好、也很深入。我尝试解释一下,看看能不能一定程度上解决您的疑惑:

1. LERM 并不能保证将所有的无标签样本都 100% 分对,会出现您说的某些样本被越分越错的情况。

2. 我个人认为 LERM 和 EntMin 最主要的区别在于 EntMin 是 sample-specific 的,而 LERM 是 category-specific 的。具体而言,在优化 entropy 的时候,所有的无标签样本只关注自身的熵,不会有一个全局意识,即大家还需要保证这个类别的标签编码最后是正确的,所以 EntMin 容易受到大类(有标签样本比较多的类别)的影响,即一开始被分错了,后续很难被矫正了;而 LERM 是 category-specific 的,在优化 label-encoding risk 的时候,无标签样本会有一个全局意识,即需要保证这个类别的标签编码最后是正确的,所以如果一开始有些无标签样本被分错了,会有一部分(很难保证全部)样本被矫正回来,进而确保这个类别的标签编码最后是正确的,所以相较于 EntMin,可以一定程度上抵御大类的影响。

3. 不管是 LERM 还是 EntMin,都是需要结合 ERM 一起来使用,这样可以一定程度上保证无标签样本的学习并不是随机的,也就是一开始的就有一些无标签样本被分对了。因此,在这些分对的无标签样本的作用下,LERM 可以再进一步校对被分错的无标签样本,因为它需要确保这个类别的标签编码是准确的(category-specific);但是 EntMin 很难基于其余的无标签样本矫正一些被分错的无标签样本,因为它主要在关注每个无标签样本本身(sample-specific)。

8 小时前 · IP 属地北京
爱写码的猫猫
试用了一下这个loss,在推荐场景提升很明显。很好的工作[赞]
23 小时前 · IP 属地浙江
爱写码的猫猫
[赞]一般这种实现相对不难又能中高等级会议的工作,放到工程上都很容易做出硬核效果
22 小时前 · IP 属地浙江
姚远
作者
你这速度好快啊[赞],感谢认可
22 小时前 · IP 属地北京
欢迎参与讨论

文章被以下专栏收录

想来知乎工作?请发送邮件到 jobs@zhihu.com