我的引用 \BODY (1)
ClickPrompt:CTR 模型是强大的提示生成器,用于将语言模型适配到 CTR 预测
摘要
点击率(CTR)预测对于各种互联网应用变得越来越不可或缺。传统的 CTR 模型通过一键编码将多字段分类数据转换为 ID 特征,并提取特征之间的协同信号。这种范式存在语义信息丢失的问题。另一条研究路线通过硬提示模板将输入数据转换为文本句子,探索预训练语言模型(PLM)在 CTR 预测中的潜力。尽管语义信号得以保留,但它们通常无法捕捉协同信息(例如,特征交互、纯 ID 特征),更不用说由巨大模型尺寸带来的不可接受的推理开销。在本文中,我们旨在对语义知识和协同知识进行建模,以实现准确的 CTR 估计,同时解决推理效率低下的问题。为了兼顾两者并弥合其差距,我们提出了一种新颖的模型无关框架(即 ClickPrompt),在该框架中,我们整合 CTR 模型为 PLM 生成交互感知的软提示。我们设计了一个提示增强的掩码语言建模(PA-MLM)预训练任务,其中 PLM 必须基于语言上下文以及由 CTR 模型生成的软提示来恢复掩码标记。 ID 和文本特征的协作与语义知识将通过提示界面进行显式对齐和交互。然后,我们可以通过 PLM 调优 CTR 模型以获得更优的性能,或者仅调优 CTR 模型以提高推理效率。在四个真实数据集上的实验验证了 ClickPrompt 相较于现有基线的有效性。源代码222MindSpore 版本: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/ClickPrompt可供使用。
预训练语言模型,CTR 预测
†期刊年份:2024†
†版权:acmlicensed†
†会议:ACM Web Conference 2024 会议论文集;2024 年 5 月 13 日至 17 日;新加坡,新加坡†
†booktitle: ACM 网络会议 2024 论文集(WWW ’24),2024 年 5 月 13 日至 17 日,新加坡,新加坡†
†doi: 10.1145/3589334.3645396†
†isbn: 979-8-4007-0171-9/24/05†
†ccs: 信息系统 推荐系统
1. 引言
点击率(CTR)预测是各种在线应用中的关键组成部分(席等人, 2023a; 林等人, 2021; 傅等人, 2023; 戴等人, 2021; 黄等人, 2022)。其目的是在特定上下文中估计用户点击的概率(林等人, 2023b),这可以表述为多字段分类数据格式:
(1) |
在过去十年中,各种神经点击率(CTR)模型被提出,以提取协作知识并捕捉高阶特征交互模式。然而,它们普遍存在语义信息丢失的问题。也就是说,多字段分类数据将被转换为具有独热编码的 ID 特征,如式1所示(例如,“女性”转换为“01”,而“男性”转换为“10”)。因此,CTR 模型的输入数据仅是一组 ID 代码,没有任何语义信息,而这些语义信息本质上包含了特征之间隐含却有利的关联。例如,电影“复仇者联盟 4:终局之战”不仅基于简单的文本相似性与其前作“复仇者联盟 1-3”相关,还基于潜在语义知识与其它超级英雄电影(例如,“钢铁侠”和“美国队长”)相关。然而,一旦转换为独热 ID 代码,它就会丢失宝贵的语义信息,这可能导致预测性能下降,尤其是在冷启动用户/物品、低频长尾特征或点击信号不足的场景中。
为此,近期的研究工作(华等。,2023a;耿等。,2023;林等。,2023a)开始引入预训练语言模型(PLMs)来解决上述语义信息丢失问题。他们将多字段分类数据转换为带有硬提示模板的文本特征,而不是使用一键编码的 ID 特征,从而为同一输入样本 生成了另一种文本模态:
(A) |
“用户 AX529 为女性。她的职业是护士。她的所在地是纽约。推荐给她的物品为 CF173,一条蓝色牛仔裤。” |
在上述模板A中,下划线的单词或短语需要根据输入样本 动态填充。这样,这些工作通过将 CTR 预测制定为序列到序列任务(Geng 等., 2022; Cui 等., 2022; Zhang 等., 2023)或二分类任务(Kang 等., 2023; Liu 等., 2022)来保留语义信息。预训练语言模型(PLMs)从预训练语料库中拥有大量的开放世界知识,甚至在参数规模扩大时展现出令人印象深刻的涌现能力(例如,逻辑推理),这有助于捕捉语义信息。然而,简单地将 PLMs 用于 CTR 估计通常存在两个局限性,即,预测不准确和推理低效。
预测不准确主要由 PLMs 在建模协同知识方面的无能引起(吴等, 2023; 林等, 2023a)。首先,存在一种纯 ID 特征,其本质上不包含语义信息(例如,物品 ID,用户 ID)。这些纯 ID 特征的标记化结果对 PLMs 来说实际上是毫无意义的(例如,用户 ID AX529 可能被标记化为[AX, 52, 9])。其次,PLMs 难以明确捕捉特征交互,因为所有字段特征都是通过模板线性组装成文本句子,然后分解为单词标记(李等, 2023a)。PLMs 可以建模单词标记之间的上下文语义信息,但失去了对 CTR 预测至关重要的字段级特征交互视图。初步工作通过引入额外的嵌入表(耿等, 2022),维护一组适配器模块(耿等, 2023),以及寻找更好的 ID 索引策略(华等, 2023b)来解决这些挑战。 然而,嵌入在 ID 特征中的协作知识仍未得到充分利用,例如,领域感知的特征交互并未被明确维护。
推理效率低下问题源于预训练语言模型的内在特性,其中需要更大的模型尺寸以提高语言理解能力[cite id=0](徐和麦考利,2023;林等.,2023a)[/cite]。适应 PLM 将由于其大规模堆叠的基于注意力的 Transformer 层而大幅增加计算成本和推理时间。这对于需要数十毫秒内响应的真实世界时间敏感在线服务是不可接受的。许多研究[cite id=4](席等.,2023b;穆罕默德等.,2021;侯等.,2022)[/cite]倾向于采用整个 PLM 进行训练,并预缓存 PLM 的输出表示以加速推理,这严重依赖存储和计算资源,以及工程投入。此外,预缓存操作可能会损害推荐系统的实时性,从而影响预测性能。
在本论文中,我们旨在捕捉语义知识和协同知识以实现准确的点击率预测,同时解决推理效率低下的问题。
为此,我们提出了一种名为ClickPrompt的新型框架,在该框架中,我们将 CTR 模型333在本文中,除非另有说明,"CTR 模型"指的是以独热 ID 特征作为输入的传统 CTR 模型。视为 PLM 的软提示生成器。具体来说,我们维护一个 CTR 模型和一个预训练语言模型,分别以 ID 特征 和文本特征 作为输入。在 CTR 模型之上放置一个提示生成层,以产生可学习的软提示向量,这些向量将作为前缀状态输入到 PLM 的每一层。ClickPrompt 遵循预训练-微调的学习方案(Devlin et al., 2018; Lin et al., 2023b)。我们设计了一种提示增强的掩码语言建模(PA-MLM)预训练任务。具体而言,我们首先采用 BERT 的标记掩码策略(Devlin et al., 2018)来获得掩码文本特征 。然后,要求 PLM 基于文本上下文以及从 ID 特征 生成的软提示来恢复被破坏的文本特征 。 如图1所示,以软提示为桥梁,基于 ID 的协同知识将通过前向传播传递到 PLM,而基于文本的语义知识将通过反向传播回流到 CTR 模型中。预训练后,我们提出了两种不同的 CTR 预测微调策略:
-
• 使用 PLM 进行微调。我们可以将 CTR 模型和 PLM 作为一个整体进行调优,它们通过提示生成层连接。CTR 模型的协同知识与 PLM 的语义知识将通过软提示接口显式对齐并相互作用,从而带来更优的 CTR 性能。 -
• 无需 PLM 的微调。为了进一步解决推理效率低下的问题,我们可以单独微调 CTR 模型,而不依赖 PLM。PA-MLM 预训练为下游 CTR 微调提供了语义感知的参数初始化,这提升了最终性能,而不改变 CTR 模型结构或增加额外的推理成本。
ClickPrompt 作为一款模型无关框架,兼容多种 CTR 模型和预训练语言模型。本文的主要贡献总结如下:
-
我们提出了一种新颖的框架(即 ClickPrompt),其中 CTR 模型充当 PLM 的软提示生成器。设计了一个提示增强的掩码语言模型预训练任务(PA-MLM),通过软提示接口建模协作知识与语义知识之间的相互交互和显式对齐,显著提升了下游 CTR 性能。 -
• ClickPrompt 是模型无关的,与各种 CTR 模型和 PLM 兼容。此外,只需微调 CTR 模型,ClickPrompt 可以提高预测准确性,而无需改变 CTR 模型结构或增加额外的推理成本。 -
• 在四个真实世界公开数据集上的广泛实验表明,我们提出的 ClickPrompt 相较于现有基线模型具有优越性。
2. 准备工作
2.1. 传统点击率预测
不失一般性,CTR 预测的基本形式将一个二元分类问题投射到多字段类别数据上。
每个数据样本包含 个字段,每个字段从多个类别中取一个单一值,可以用 表示。在传统的 CTR 预测中,我们应用独热编码将 转换为稀疏向量 ,如公式1所示,并将 作为真实标签(是否点击)保持。
CTR 模型估计每个实例的点击概率 。根据(王等, 2022; 林等, 2023b; 张等, 2021),大多数传统神经 CTR 模型的结构可以抽象为三层:(1)嵌入层,(2)特征交互层,以及(3)预测层。
嵌入层将稀疏的独热输入 转换为低维稠密嵌入向量 ,其中 是嵌入大小, 是字段数量。
特征交互层作为 CTR 模型的关键功能模块,旨在通过多种操作(例如,注意力机制、乘积操作)捕获二阶或更高阶的特征交互。该层将基于密集的嵌入向量生成数据实例的紧凑表示。
预测层根据特征交互层生成的表示 计算点击概率 。它通常是一个线性层或 MLP 模块,后接一个 sigmoid 函数 。
在预测层之后,CTR 模型以端到端的方式使用二元交叉熵(BCE)损失进行训练:
(2) |
其中 是训练样本的数量。
2.2. 基于 PLM 的 CTR 预测
随着预训练语言模型(PLMs)的兴起,研究人员利用 PLMs 的语义相关能力来解决点击率(CTR)估计问题。
不同于传统的 CTR 预测,输入 通过硬提示模板转换为文本句子 ,如模板A所示。根据任务类型和真实标签的表述,基于 PLM 的 CTR 预测大致可分为两类(Lin 等人., 2023a; Wu 等人., 2023)。
第一个方法(刘等人, 2022; 穆罕默德等人, 2021; 包等人, 2023)将 CTR 预测视为二元文本分类任务,其中真实标签与传统设置相同(即, )。他们利用 PLMs 提取文本输入 的稠密表示 ,随后通过预测层进行点击估计。采用 BCE 损失进行优化。
(3) |
第二类(耿等, 2022; 华等, 2023a; 崔等, 2022)将 CTR 预测视为一种序列到序列的任务,其中真实标签被转换为二元关键词(例如,是/否,好/坏)。他们利用编码器-解码器或仅解码器的 PLMs 来遵循指令并回答附加在文本输入 后面的二元问题(例如,用户会喜欢该物品吗?)。PLMs 可以在零样本设置中被冻结,或通过因果语言建模进行微调。
在本论文中,我们主要关注第一类。也就是说,我们在由 PLM 生成的文本表示 之上放置一个 MLP 模块。
3. 研究方法
在本节中,我们介绍了我们提出的 ClickPrompt 框架的模型架构和学习策略的详细信息。
3.1. ClickPrompt 概述
如图2所示,ClickPrompt 的模型架构设计主要可以分为三个阶段:(1)模态转换,(2)提示生成,(3)提示融合。
首先,模态转换层将输入数据 分别转换为独热 ID 特征 和文本特征 。其次,ID 特征 被输入到 CTR 模型中,随后通过提示生成层生成独立的软提示向量。最后,在提示融合阶段,软提示作为 PLM 中每个变压器层的前缀隐藏状态,这允许协作知识和语义知识之间的显式对齐。
至于学习策略,ClickPrompt 采用了常见的预训练-微调方案。我们首先设计了一个提示增强的掩码语言建模(PA-MLM)任务进行预训练,其中 PLM 需要基于文本上下文以及由 CTR 模型生成的软提示来恢复被掩码的标记。预训练完成后,我们可以进行有监督的微调,既可以带 PLM,也可以不带 PLM。前者使得协作信息和语义信息之间能够进行显式交互,以获得更优的性能,而后者则解决了推理效率低下的问题。
以下,我们省略了 CTR 模型和 PLM 的详细结构,因为 ClickPrompt 对二者而言均充当了一个模型无关的框架。
3.2. 模态转换
3.3. 提示生成
提示生成阶段旨在将 ID 特征 编码为包含丰富协同知识的独立软提示向量,以便后续融合。如第2.1节所述,我们将 ID 输入 通过 CTR 模型的嵌入和特征交互(FI)层,以获得紧凑表示 :
(5) |
然后,我们维护一组用于软提示生成的平行投影网络 :
(6) |
其中 表示 PLM 第 层的第 个提示向量。 是 PLM 的变压器层数, 是每层的软提示数量。每个投影网络 被设计为多层感知器(MLP),以促进维度一致性和空间转换。
3.4. 提示融合
如图2所示,所获得的软提示将作为 PLM 每一层 Transformer 的前缀隐状态。具体而言,文本特征 被分词为 个词令牌,PLM 的第 层可以表示为:
(7) |
其中 是每一层 中标记的隐藏状态。通过这种方式,借助每个 Transformer 层的自注意力机制,CTR 模型的协同信号可以通过提示接口与文本侧的语义知识显式地对齐和融合。
最终,在经过 层传播后,我们将池化与预测层应用于 PLM 的输出状态:
(8) |
输出维度以及后续的激活函数和损失函数取决于我们所采用的任务和学习策略,这将在第3.5节进一步讨论。
3.5. 学习策略
如图2所示,ClickPrompt 采用了常见的预训练-微调方案作为学习策略。具体而言,我们首先提出了一种提示增强的掩码语言模型(PA-MLM)作为预训练任务,通过软提示的链接来融合协作知识和语义知识,从而改善了参数初始化。接下来,我们可以选择进行有监督的微调与 PLM 一起以获得更优的 CTR 性能,或者单独微调 CTR 模型不使用 PLM,以同时保留改进的预测准确性和推理效率。
3.5.1. 增强提示的掩码语言建模
如图2所示,我们建议对文本特征 应用标记遮蔽,以获得损坏的文本输入 ,同时保留原始 ID 特征 。然后,要求 PLM 基于语言上下文,连同从完整 ID 特征生成的软提示,恢复被遮蔽的标记。因此,方程8中的池化与预测层被设计为语言模型的经典解码器模块,其后接一个 softmax 函数和交叉熵损失。遵循(Devlin et al., 2018; Liu et al., 2019a),我们对每个输入 统一采样 15%的标记,并以 8:1:1 的比例执行三种不同的操作,即,(1) 替换,(2) 随机单词替换,以及(3) 保持不变。
为了完成对掩码标记的此类填空任务,预训练语言模型(PLM)必须提取并整合嵌入在软提示中的相应“正确答案”,从而在 CTR 模型与 PLM 之间针对同一输入 形成细粒度的对齐。
3.5.2. 基于预训练语言模型的微调
显然,我们可以保留整个模型结构,并继续对下游的 CTR 预测任务进行监督微调。如图2所示,我们将来自 CTR 模型和 PLM 的预测结果进行整合,同时它们通过软提示向量显式交互:
(9) | ||||
其中 是一个可学习的参数,用于平衡预测权重的,而 是 sigmoid 函数。通过这种方式,两种模态的协同和语义知识在微调过程中被彻底连接和交织,从而导致了卓越的 CTR 性能。
3.5.3. 无预训练语言模型的微调
为进一步解决推理效率问题,如图2所示,我们可以单独微调 CTR 模型而不涉及 PLM。我们已通过在 PA-MLM 预训练期间的逆传播,将 PLM 的语义知识注入到 CTR 模型中。因此,这种语义感知的参数初始化能够实现协作知识与语义知识之间的隐式交互,提升 CTR 性能,而不改变 CTR 模型结构或增加额外的推理成本:
(10) |
对于两种微调策略,我们都应用二元交叉熵损失函数于估计的点击概率,如公式2所示。
表 1. 数据集统计
数据集 | #Training | #Validation | #Test | #Fields | #Features |
Movielens-1M: 电影评分数据集-1M | 591,208 | 73,902 | 73,902 | 8 | 17,251 |
图书漂流 | 824,936 | 103,117 | 103,118 | 8 | 722,234 |
亚马逊-玩具 | 1,489, 782 | 186,223 | 186,223 | 5 | 371,813 |
GoodReads 豆瓣读书 | 16,097,632 | 2,012,204 | 2,012,204 | 15 | 4,565,430 |
表 2. 不同模型的总体性能比较。最佳结果以粗体显示,次佳值以下划线标出。我们同时使用波浪下划线来表示最佳基线性能。相对提升表示我们提出的 ClickPrompt 相较于各基线模型的相对 AUC 提升率。符号*表示 ClickPrompt 在 上相较于最佳基线模型具有统计学上的显著提升。
Model | Movielens-1M | 图书漂流 | 亚马逊-玩具 | GoodReads 好书网 | ||||||||
AUC | 对数损失 | 相对改进 | AUC | 对数损失 | 相对改进 | AUC | 对数损失 | 相对改进 | AUC | 对数损失 | 相对改进 | |
FM | 0.8371 | 0.4090 | 1.53% | 0.7871 | 0.5202 | 2.02% | 0.6668 | 0.4059 | 1.30% | 0.7614 | 0.5190 | 1.85% |
DNN | 0.8413 | 0.3944 | 1.02% | 0.7940 | 0.5124 | 1.13% | 0.6686 | 0.3982 | 1.03% | 0.7685 | 0.5082 | 0.91% |
DeepFM | 0.8443 | 0.3915 | 0.66% | 0.7959 | 0.5106 | 0.89% | 0.6692 | 0.3978 | 0.94% | 0.7690 | 0.5136 | 0.85% |
xDeepFM | 0.8435 | 0.3950 | 0.76% | 0.7943 | 0.5122 | 1.10% | 0.6681 | 0.3967 | 1.11% | 0.7697 | 0.5072 | 0.75% |
IPNN | 0.8437 | 0.3926 | 0.73% | 0.7953 | 0.5111 | 0.97% | 0.6687 | 0.3980 | 1.02% | 0.7722 | 0.5148 | 0.43% |
DCN | 0.8423 | 0.3964 | 0.90% | 0.7952 | 0.5116 | 0.98% | 0.6688 | 0.3964 | 1.00% | 0.7693 | 0.5074 | 0.81% |
AutoInt | 0.8399 | 0.4004 | 1.19% | 0.7954 | 0.5113 | 0.96% | 0.6678 | 0.3977 | 1.15% | 0.7682 | 0.5084 | 0.95% |
FiGNN:图神经网络滤波器 | 0.8399 | 0.3991 | 1.19% | 0.7970 | 0.5105 | 0.75% | 0.6700 | 0.3947 | 0.82% | 0.7667 | 0.5094 | 1.15% |
FGCNN | 0.8416 | 0.3957 | 0.99% | 0.7985 | 0.5082 | 0.56% | 0.6675 | 0.3978 | 1.20% | 0.7705 | 0.5064 | 0.65% |
DCNv2 | 0.8439 | 0.3954 | 0.71% | 0.7970 | 0.5096 | 0.75% | 0.6701 | 0.3961 | 0.81% | 0.7711 | 0.5059 | 0.57% |
CTR-BERT | 0.8296 | 0.4208 | 2.45% | 0.7848 | 0.5268 | 2.32% | 0.6649 | 0.3988 | 1.59% | 0.7457 | 0.5292 | 4.00% |
P5 | 0.8173 | 0.4171 | 3.99% | 0.7695 | 0.5360 | 4.35% | 0.6470 | 0.4018 | 4.40% | 0.7367 | 0.5531 | 5.27% |
PTab | 0.8353 | 0.4081 | 1.75% | 0.7979 | 0.5208 | 0.64% | 0.6685 | 0.3995 | 1.05% | 0.7566 | 0.5203 | 2.50% |
CTRL | 0.8453 | 0.3932 | 0.54% | 0.7992 | 0.5092 | 0.48% | 0.6704 | 0.3960 | 0.76% | 0.7735 | 0.5038 | 0.26% |
点击提示 |
0.8467∗ |
0.3939 | - | 0.8013∗ | 0.5051∗ | - | 0.6719∗ | 0.3933∗ | - | 0.7744∗ | 0.5030∗ | - |
点击提示 | 0.8499∗ | 0.3905∗ | - | 0.8030∗ | 0.5037∗ | - | 0.6755∗ | 0.3890∗ | - | 0.7755∗ | 0.5022∗ | - |
4. 实验
在本节中,我们进行了广泛的实验,以回答以下研究问题:
-
RQ1 ClickPrompt 与现有基线模型相比表现如何? -
RQ2 ClickPrompt 是否与各种 CTR 模型和预训练语言模型兼容? -
RQ3 不同模型配置对 ClickPrompt 有何影响? -
RQ4 ClickPrompt 在长尾低频用户或物品场景中的表现如何?
4.1. 实验设置
4.1.1. 数据集
由于基于 PLM 的 CTR 预测需要数据集保持原始的语义/文本特征,而不是匿名特征 ID,我们从不同推荐场景中选择了四个真实世界的公开数据集(即,MovieLens-1M4https://grouplens.org/datasets/movielens/1m/,BookCrossing5http://www2.informatik.uni-freiburg.de/~cziegler/BX/,Amazon-Toys6https://cseweb.ucsd.edu/~jmcauley/datasets.html,和 GoodReads7https://mengtingwan.github.io/data/goodreads.html)。所有数据集按照全局时间戳以 8:1:1 的比例划分为训练集、验证集和测试集。这四个数据集的基本统计信息总结在表1中。关于数据集和数据预处理的更详细信息见附录A。
4.1.2. 评估指标
为评估 CTR 预测方法的性能,我们采用 AUC(ROC 曲线下面积)和 Log Loss(二元交叉熵损失)作为评估指标。略微更高的 AUC 或更低的 Log Loss(例如,0.001)可视为 CTR 预测的显著改进(连等,2018;王等,2021,2022)。
4.1.3. 基线
对于传统的 CTR 模型,我们选择了具有不同特征交互运算符的基线,包括 FM (Rendle, 2010)、DNN、DeepFM (Guo et al., 2017)、xDeepFM (Lian et al., 2018)、PNN (Qu et al., 2016)、DCN (Wang et al., 2017)、AutoInt (Song et al., 2019)、FiGNN (Li et al., 2019)、FGCNN (Liu et al., 2019b) 和 DCNv2 (Wang et al., 2021)。对于基于 PLM 的 CTR 模型,我们选择 CTR-BERT (Muhamed et al., 2021)、P5 (Geng et al., 2022)、PTab (Liu et al., 2022)、CTRL (Li et al., 2023a) 作为代表性基线。
4.1.4. 实施细节
我们采用 AdamW 作为优化器。
对于提示增强的掩码语言模型预训练,我们将批量大小设置为 ,学习率设置为 。预热比例从 中选择。预训练的轮数是 20。在微调阶段,Movielens-1M 的批量大小设置为 ,BookCrossing 的批量大小设置为 ,AZ-Toys 的批量大小设置为 ,GoodReads 的批量大小设置为 。CTR 模型部分的学习率是 ,而 PLM 部分的学习率从 中选择。将 PLM 的学习率设置为零意味着我们冻结语言模型,只更新 CTR 模型。用于提示生成的投影网络 是一个 tanh 激活的双层 MLP,其隐藏层大小等于 PLM 的嵌入大小。每层提示的数量 从 中选择。由于 ClickPrompt 是一个模型无关的框架,我们选择 DCNv2(Wang et al., 2021)作为 CTR 模型,RoBERTa-base(Liu et al., 2019a)作为预训练语言模型,除非另有说明。最后,我们采用验证 AUC 最高的迭代模型在测试集上进行评估。我们还在附录B中提供了每个基线模型的详细超参数设置。
4.2. 整体性能(RQ1)
我们比较了所提出的 ClickPrompt 与选定的基线模型的整体性能。请注意,我们选择 DCNv2 作为 CTR 模型,RoBERTa-base 作为预训练语言模型。结果在表2中报告,从中我们可以得出以下观察结果:
表 3. 我们提出的 ClickPrompt 在不同 CTR 模型和 PLM 上的模型兼容性分析。N/A表示从头开始训练未经 ClickPrompt 处理的原始 CTR 模型。对于每个 CTR 模型,我们将最佳结果用粗体表示,次佳值用下划线标出。Rel.Impr表示相对于原始 CTR 模型(即,N/A)的相对 AUC 提升率。这些提升在 水平上与相应的原始 CTR 模型(即,N/A)具有统计学上的显著性。
CTR 模型 | 微调 | 语言模型 | Movielens-1M:电影评分数据集-100 万条 | 图书漂流 | 亚马逊-玩具 | ||||||
AUC | 对数损失 | 相对改进 | AUC | 对数损失 | 相关改进 | AUC | 对数损失 | Rel.Impr 相对改进 | |||
DCNv2 | 不适用 | 0.8439 | 0.3954 | - | 0.7970 | 0.5096 | - | 0.6701 | 0.3961 | - | |
无 PLM | TinyBERT | 0.8464 | 0.3943 | 0.30% | 0.7997 | 0.5070 | 0.34% | 0.6705 | 0.3956 | 0.06% | |
RoBERTa 基础模型 | 0.8467 | 0.3939 | 0.33% | 0.8013 | 0.5051 | 0.54% | 0.6719 | 0.3933 | 0.27% | ||
RoBERTa-large: RoBERTa 大型模型 | 0.8476 | 0.3920 | 0.44% | 0.8017 | 0.5047 | 0.59% | 0.6723 | 0.3939 | 0.33% | ||
与 PLM | TinyBERT | 0.8470 | 0.3933 | 0.37% | 0.8003 | 0.5063 | 0.41% | 0.6732 | 0.3943 | 0.46% | |
RoBERTa 基础版 | 0.8499 | 0.3905 | 0.71% | 0.8030 | 0.5037 | 0.75% | 0.6755 | 0.3890 | 0.81% | ||
RoBERTa-large | 0.8498 | 0.3918 | 0.70% | 0.8032 | 0.5034 | 0.78% | 0.6759 | 0.3893 | 0.87% | ||
AutoInt | 不适用 | 0.8399 | 0.4004 | - | 0.7954 | 0.5113 | - | 0.6678 | 0.3977 | - | |
无 PLM | TinyBERT | 0.8422 | 0.3995 | 0.27% | 0.7967 | 0.5098 | 0.16% | 0.6714 | 0.3948 | 0.54% | |
RoBERTa 基础版 | 0.8439 | 0.3967 | 0.48% | 0.7981 | 0.5091 | 0.34% | 0.6724 | 0.3944 | 0.69% | ||
RoBERTa-large:RoBERTa 大型模型 | 0.8454 | 0.3965 | 0.65% | 0.7989 | 0.5084 | 0.44% | 0.6732 | 0.3918 | 0.81% | ||
与 PLM | TinyBERT | 0.8458 | 0.3915 | 0.70% | 0.7981 | 0.5081 | 0.34% | 0.6728 | 0.3943 | 0.75% | |
RoBERTa-base | 0.8465 | 0.3912 | 0.79% | 0.8004 | 0.5076 | 0.63% | 0.6760 | 0.3924 | 1.23% | ||
RoBERTa 大型模型 | 0.8481 | 0.3893 | 0.98% | 0.8009 | 0.5070 | 0.69% | 0.6767 | 0.3893 | 1.33% | ||
DNN | Since there is no source text provided (N/A), I cannot generate a translated text. Please provide the academic text you wish to have translated into Simplified Chinese | 0.8413 | 0.3944 | - | 0.7940 | 0.5124 | - | 0.6686 | 0.3982 | - | |
无 PLM | TinyBERT | 0.8435 | 0.3944 | 0.26% | 0.7960 | 0.5114 | 0.25% | 0.6700 | 0.3956 | 0.21% | |
RoBERTa-base | 0.8448 | 0.3929 | 0.42% | 0.7972 | 0.5097 | 0.40% | 0.6704 | 0.3943 | 0.27% | ||
RoBERTa 大型模型 | 0.8455 | 0.3927 | 0.50% | 0.7985 | 0.5081 | 0.57% | 0.6710 | 0.3942 | 0.36% | ||
与 PLM | TinyBERT | 0.8446 | 0.3925 | 0.39% | 0.7971 | 0.5093 | 0.39% | 0.6732 | 0.3946 | 0.69% | |
RoBERTa 基础模型 | 0.8455 | 0.3909 | 0.50% | 0.7994 | 0.5080 | 0.68% | 0.6742 | 0.3935 | 0.84% | ||
RoBERTa-large | 0.8462 | 0.3914 | 0.58% | 0.7999 | 0.5070 | 0.74% | 0.6745 | 0.3930 | 0.88% |
-
• 传统 CTR 模型相较于基于 PLM 的 CTR 模型表现出显著更优的性能,除 CTRL 模型外。这表明特征交叉模式中嵌入的协同信息对 CTR 预测至关重要,而仅依赖文本输入的语义知识可能导致性能下降,这与(李等,2023a)中的结果一致。 -
• CTRL 通常在所有基线模型中取得最佳性能。CTRL 采用基于 CLIP 的框架(Radford 等人,2021 年),并通过对比预训练将语义知识从 PLM 蒸馏到 CTR 模型中。然而,对比目标只能为隐式对齐和最终 PLM 与 CTR 模型表示的后期交互提供粗粒度的实例级监督,导致其性能相对于我们提出的 ClickPrompt 而言相对较差。 -
• ClickPrompt 在所有基线模型上实现了显著改进,这验证了通过软提示接口显式对齐和早期交互协作知识与语义知识的效果。 -
• ClickPrompt 通常获得第二名,显著优于不改变 DCNv2 模型结构的基线方法。这证明了由 PA-MLM 预训练带来的语义感知参数初始化的重要性。通过牺牲在下游微调过程中与语义信号的显式交互机会,ClickPrompt 成功提升了预测准确性,而未增加推理延迟。
4.3. 模型兼容性(RQ2)
为研究模型兼容性,我们将 ClickPrompt 框架应用于不同的骨干网络,包括 CTR 模型和 PLM 模型。对于 CTR 模型,我们选择了 DCNv2(王等, 2021)、AutoInt(宋等, 2019)和 DNN,它们代表了不同类型的特征交互算子。对于 PLM 模型,我们选择了以下三种不同模型大小的骨干网络:TinyBERT (14.5M)(焦等, 2019)、RoBERTa-base(125M)(刘等, 2019a)和 RoBERTa-large(335M)(刘等, 2019a)。我们在 Movielens-1M、BookCrossing 和 Amazon-Toys 数据集上进行了模型兼容性实验。结果如表3所示,从中我们可以得出以下观察结论:
-
• ClickPrompt 能够在所有骨干网络上相较于原始 CTR 模型(即 N/A)实现显著改进,这证明了其在 CTR 模型和 PLM 方面的卓越模型兼容性。 -
• 随着 PLM 模型规模的持续增长,除少数情况外,ClickPrompt 相较于原始 CTR 模型所带来的性能提升也逐渐增加。更大的预训练语言模型拥有更广泛的开源世界知识,这可以有利于语义和协同信号之间的融合与对齐。 -
• 尽管我们观察到随着语言模型规模的增加,性能持续提升的现象,但更大规模的 PLM 并不一定会导致 CTR 预测性能成比例改善。因此,考虑到训练开销,我们建议 RoBERTa-base 是 ClickPrompt 在涉及 PLMs 时平衡性能增益和训练成本的一个更合适且经济的选择。
4.4. 消融研究(RQ3)
我们分析了超参数和不同配置对 ClickPrompt 的影响,包括提示策略以及协作与语义知识融合策略。在本节中,我们选择 DCNv2、AutoInt 和 DNN 作为骨干 CTR 模型,并选择 RoBERTa-base 作为 PLM 骨干。实验在 Movielens-1M、BookCrossing 和 Amazon-Toys 数据集下,采用与 PLM 微调策略进行。
4.4.1. 提示策略
表 4。图3中所示的提示策略的消融研究。最佳结果以粗体显示。Rel.Impr表示Layerwise策略相对于w/o-Layerwise策略的相对 AUC 提升率。
数据集 | CTR 模型 | 提示策略 | 相对改进 | |||
无逐层 | 逐层 | |||||
AUC | 对数损失 | AUC | 对数损失 | |||
Movielens-1M: 电影推荐数据集-1M | DCNv2 | 0.8468 | 0.3948 | 0.8499 | 0.3905 | 0.37% |
AutoInt | 0.8445 | 0.3946 | 0.8465 | 0.3912 | 0.24% | |
DNN | 0.8433 | 0.3959 | 0.8455 | 0.3909 | 0.26% | |
图书漂流 | DCNv2 | 0.7993 | 0.5075 | 0.8030 | 0.5037 | 0.46% |
AutoInt | 0.7982 | 0.5091 | 0.8004 | 0.5076 | 0.28% | |
DNN | 0.7981 | 0.5109 | 0.7994 | 0.5080 | 0.16% | |
亚马逊-玩具 | DCNv2 | 0.6712 | 0.3945 | 0.6755 | 0.3890 | 0.64% |
AutoInt | 0.6702 | 0.4006 | 0.6760 | 0.3924 | 0.87% | |
DNN | 0.6695 | 0.3962 | 0.6742 | 0.3935 | 0.70% |
4.4.2. 协同与语义知识融合策略
在 ClickPrompt 中,协作知识与语义知识之间的交互和对齐有两个关键技术点。
-
(1) 从模型架构的角度来看,逐层软提示充当了 CTR 模型和 PLM 之间显式交互的桥梁。 -
(2) 从学习策略的角度来看,PA-MLM 预训练任务迫使 PLM 提取并整合嵌入在提示向量中的有用协作信息,从而实现细粒度对齐。
因此,我们将 ClickPrompt 与以下三种变体进行比较:
-
• 无提示。我们保留了 PA-MLM 预训练阶段,但在微调阶段移除了 CTR 模型和 PLM 之间的提示接口。也就是说,微调阶段的模型架构退化为一个双塔版本,该版本简单地将 CTR 模型和 PLM 的输出相加。 -
• 无预训练。我们移除了 PA-MLM 预训练阶段,同时保留了带有软提示接口的模型架构,用于下游 CTR 预测。 -
• 无两者。我们移除了提示界面和 PA-MLM 预训练,这消除了训练过程中协作知识与语义知识之间的交互和对齐。
结果如表5所示。当移除提示界面或 PA-MLM 预训练时,所有骨干 CTR 模型在三个数据集上的性能均有所下降。这表明,协作知识与语义知识之间的显式交互和细粒度对齐能够更好地从两种输入模态中提取和融合信息,从而提升 CTR 预测性能。
表 5。 协作知识与语义知识融合策略的消融研究。最佳值以粗体显示,次佳值以下划线标出。
CTR 模型 | 变体 | Movielens-1M | 图书漂流 | 亚马逊-玩具 | |||
AUC | 对数损失 | AUC | 对数损失 | AUC | 对数损失 | ||
DCNv2 | 点击提示 | 0.8499 | 0.3905 | 0.8030 | 0.5037 | 0.6755 | 0.3890 |
无提示 | 0.8470 | 0.3939 | 0.8016 | 0.5049 | 0.6735 | 0.3922 | |
无预训练 | 0.8439 | 0.3949 | 0.8008 | 0.5057 | 0.6727 | 0.3917 | |
无_both | 0.8438 | 0.3960 | 0.7993 | 0.5073 | 0.6706 | 0.3966 | |
AutoInt | 点击提示 | 0.8465 | 0.3912 | 0.8004 | 0.5076 | 0.6760 | 0.3924 |
无提示 | 0.8443 | 0.3992 | 0.7999 | 0.5082 | 0.6722 | 0.3985 | |
无预训练 | 0.8450 | 0.3953 | 0.7987 | 0.5092 | 0.6720 | 0.3945 | |
无 | 0.8448 | 0.3967 | 0.7982 | 0.5127 | 0.6699 | 0.3978 | |
DNN | ClickPrompt | 0.8455 | 0.3909 | 0.7994 | 0.5080 | 0.6742 | 0.3935 |
无提示 | 0.8437 | 0.3959 | 0.7988 | 0.5079 | 0.6699 | 0.3979 | |
无预训练 | 0.8445 | 0.3951 | 0.7972 | 0.5123 | 0.6718 | 0.3947 | |
无两者 | 0.8441 | 0.3953 | 0.7973 | 0.5128 | 0.6698 | 0.3996 |
4.5. 长尾用户/物品分析(RQ4)
PLM 带来的语义信息对于冷启动或长尾用户/物品场景尤为宝贵。因此,在本节中,我们进行深入分析,以进一步探究 ClickPrompt 相对于骨干 CTR 模型在长尾用户/物品视角下的性能提升原因。
我们在 MovieLens-1M 数据集上进行实验,以 DCNv2 作为基础 CTR 模型,RoBERTa-base 作为基础 PLM。我们采用了基于 PLM 的微调策略。具体而言,我们根据用户/物品在训练集中出现的频率进行排序。频率最低的 10%被归类为长尾低频用户/物品,而其余的 90%则被视为非长尾用户/物品。根据用户和物品是否为长尾,我们将整个测试集划分为四个互斥的子集。我们在每个子集上评估 DCNv2 和 ClickPrompt,并在表6中报告结果,从中得出以下观察结论:
-
• 长尾低频用户或项目会导致传统基于 ID 的 CTR 模型(即 DCNv2)的性能显著下降,而 ClickPrompt 可以一致地提高所有四个子集的预测性能。 -
• 在长尾问题较为严重的情况下(例如,用户和物品均为长尾的子集),ClickPrompt 相较于基础 CTR 模型可以带来显著更大的改进。这证实了 ClickPrompt 在解决推荐系统中的冷启动或长尾问题方面是有效的,这些主要贡献于最终性能的提升。
表 6. DCNv2 和 ClickPrompt(以 DCNv2 为骨干网络)在 MovieLens-1M 数据集上的长尾用户/物品问题的性能表现。最佳结果以粗体显示。Rel.Impr表示相对 AUC 提升率。
长尾 用户? | 长尾 项目? | DCNv2 | 点击提示 | 相对改进 | ||
AUC | 对数损失 | AUC | 对数损失 | |||
✔ | ✔ | 0.6000 | 0.6624 | 0.6500 | 0.6038 | 8.33% |
✘ | ✔ | 0.6886 | 0.6930 | 0.7003 | 0.6888 | 1.70% |
✔ | ✘ | 0.8149 | 0.3977 | 0.8186 | 0.3916 | 0.45% |
✘ | ✘ | 0.8485 | 0.3978 | 0.8520 | 0.3926 | 0.41% |
5. 相关工作
5.1. 传统点击率预测
为了估计用户点击概率,传统的 CTR 模型通常通过独热编码将输入数据转换为 ID 特征。其关键思想是捕捉特征交叉模式,这表明了多个特征的组合关系。虽然隐式特征交互由深度神经网络(DNN)建模,但显式特征交互则通过特别设计的学习函数算子来捕捉:(1)乘积算子,(2)卷积算子,以及(3)注意力算子。
产品算子(曲等, 2018; 郭等, 2017; 胡安等, 2016; 何与蔡, 2017; 黄等, 2019; 曲等, 2016)起源于经典的浅层模型,如 FM(Rendle, 2010)和 POLY2(常等, 2010)。例如,DCN(王等, 2017)、xDeepFM(连等, 2018)、DCNv2(王等, 2021)被提出,通过在每一层显式应用基于乘积的特征交互来捕捉高阶特征交互。卷积算子(刘等, 2015, 2019b; 李等, 2019)(例如,卷积神经网络(CNN)和图卷积网络(GCN))也被探索用于捕捉特征模式的局部和全局视图(刘等, 2019b),并通过消息传播促进交互建模(李等。, 2019). 注意力算子(肖等人., 2017; 宋等人., 2019; 李等人., 2020; 陈等人., 2021)建议采用注意力机制,以允许特征字段或特征交互对最终的 CTR 预测产生不同的贡献。
尽管基于 ID 的 CTR 建模范式在过去几十年中取得了显著进展,但它们通常受到由独热编码带来的语义信息丢失问题的困扰。这进而导致它们无法处理包含冷启动用户/物品或低频长尾特征的场景。
5.2. 基于 PLM 的 CTR 预测
随着预训练语言模型(PLMs)在自然语言处理(NLP)领域的快速发展,研究人员开始探索 PLMs 在 CTR 预测中的潜力(林等., 2023a; 喜等., 2023b)。不同于传统 CTR 预测中的基于 ID 的独热编码,输入数据通过硬提示模板转换为文本句子,如模板A所示。根据真实标签的构建和任务类型,基于 PLM 的 CTR 预测大致可分为两类。
第一个方法(李等, 2023b; 毛等, 2023; 穆罕默德等, 2021)保留了真实标签作为二进制代码 ,类似于传统设置,并将 CTR 预测任务建模为二进制文本分类问题。例如,PTab(刘等, 2022)首先进一步预训练了一个 BERT 模型(德夫林等, 2018),用于基于文本化的 CTR 数据的掩码语言建模目标,然后对其进行微调,以用于下游 CTR 估计,并随机初始化预测头。
第二类(张和王, 2023; 林等., 2023c)将二元标签转换为一对关键答案词(例如,是/否,好/坏),从而将 CTR 预测建模为一个序列到序列的任务。例如,P5(耿等., 2022)及其变体(耿等., 2023; 华等., 2023a, b),提出将 T5(拉斐尔等., 2020)调整为统一的推荐模型,以文本生成的方式处理各种下游任务。其他工作(刘等., 2023a; 包等., 2023)也旨在整合仅解码器的大型语言模型(LLMs),以遵循指令并回答附加在文本输入句子后的用户偏好问题。
尽管语义信息丢失问题得到了很好的解决,但这些基于 PLM 的 CTR 模型无法捕捉字段间的协同信号,导致 CTR 预测性能较差。此外,由大型模型尺寸带来的沉重推理开销使得其在现实工业应用中不切实际。我们提出的 ClickPrompt 不仅可以保留并融合语义和协同知识,以实现 SOTA CTR 预测性能,还能通过提供更好的语义感知参数初始化来解决推理效率低下的问题,仅需微调 CTR 模型。
5.3. 提示调优
提示调优为特定 NLP 任务(例如,知识探测、文本分类)(刘等人,2021;金等人,2021)引入了一组可训练的连续提示到预训练语言模型中。通常,提示调优(李和梁,2021;汉巴兹穆扬等人,2021)充当参数高效的微调(PEFT)解决方案,我们仅更新软提示的参数,并在下游任务的监督下,保持原始 PLM 的整个参数不变(莱斯特等人,2021)。这样,在针对不同下游任务微调 PLM 时,我们可以大幅减少每个任务的存储和内存使用。此外,一些工作(刘等人,2023b;本-大卫等人,2022)提出将软提示与 PLM 的所有或部分参数一起调优。值得注意的是,这种设置不再属于 PEFT 方法。它非常类似于标准的预训练-微调范式,但可学习的软提示的添加可以为模型训练提供额外的引导(刘等人,2021)。 尽管这一系列方法可以显著提升模型能力,但它需要大量的计算和存储资源,并且在小数据集上可能会过拟合。
6. 结论
在本论文中,我们提出了一种新颖的模型无关框架(即 ClickPrompt),其中 CTR 模型作为 PLM 的软提示生成器。设计了一种预训练-微调方案,以实现一热 ID 模态的协同知识与文本模态的语义知识之间的显式交互和校准,显著提高了 CTR 预测性能。此外,我们提供了另一种轻量级微调策略,仅用于训练 CTR 模型以应对下游任务,无需 PLM,从而妥善解决了推理效率低下的问题。在四个真实数据集上的广泛实验验证了 ClickPrompt 相较于基线模型在预测性能和模型兼容性方面的优越性。至于未来的工作,一个有前景的方向是进一步提高预训练效率。此外,我们将探索 ClickPrompt 在其他推荐任务(如学习排序)中的应用。
致谢
上海交通大学团队部分受到中国国家重点研发计划(2022ZD0114804)、上海市科技重大专项(2021SHZDZX0102)以及国家自然科学基金(62177033, 62322603)的支持。 该研究由华为创新研究计划资助。 我们感谢 MindSpore(min, 2020)对本工作的部分支持,这是一个新的深度学习计算框架。
参考文献
- (1)
-
min (2020)
2020. MindSpore. https://www.mindspore.cn/ -
鲍等人(2023)
鲍可钦,张机制,张扬,王文杰,冯福利,何向南。2023。Tallrec:一种有效且高效的对齐大型语言模型与推荐系统的调优框架。arXiv 预印本 arXiv:2305.00447(2023)。 -
本-大卫等(2022)
埃亚尔·本-大卫,纳达夫·奥韦德,和罗伊·赖克哈特。2022。PADA:基于实例的提示学习用于对未见领域的即时适应。《计算语言学协会会刊》10(2022),414–433。 -
博里索夫等(2022)
瓦季姆·鲍里索夫,卡特琳·塞斯勒,托比亚斯·利曼,马丁·帕韦尔齐克,和杰尔吉·卡什内齐。2022。语言模型是现实的表格数据生成器。arXiv 预印本 arXiv:2210.06280(2022)。 -
常等人(2010)
阴文昌,谢佐锐,张凯伟,迈克尔·林加德,和林智仁。2010。通过线性支持向量机训练和测试低次多项式数据映射。《机器学习研究杂志》11, 4 (2010)。 -
陈等人(2021)
陈泽凯,钟方天,陈朱敏,张晓,罗伯特·普莱斯,程秀珍。2021。DCAP:用于用户响应预测的深度交叉注意力产品网络。在第 30 届 ACM 国际信息与知识管理会议论文集中。221–230。 -
崔等人(2022)
崔泽宇,马建新,周昌,周敬仁,杨红霞。2022。M6-Rec:生成预训练语言模型是开放式推荐系统。arXiv 预印本 arXiv:2205.08084(2022)。 -
戴等(2021)
戴新义,林江浩,张伟南,李帅,刘伟文,唐瑞明,何修强,郝建业,王俊,于勇。2021。一种对抗性模仿点击模型用于信息检索。在 2021 年网络会议论文集中。1809–1820。 -
德夫林等(2018)
雅各布·德夫林,张明伟,肯顿·李,和克里斯蒂娜·图塔诺娃。2018。BERT:用于语言理解的深度双向变压器预训练。arXiv 预印本 arXiv:1810.04805(2018)。 -
傅等(2023)
傅凌 Yue,林江浩,刘伟文,唐瑞明,张伟南,张瑞,于勇。2023 年。用于多区块移动页面信息检索的 F 型点击模型。在第十六届 ACM 国际网络搜索与数据挖掘会议论文集中。1057-1065。 -
耿等(2022)
耿世界,刘曙昌,傅作辉,葛英俊,张永锋。2022。推荐即语言处理(RLP):一种统一的预训练、个性化提示与预测范式(P5)。在第 16 届 ACM 推荐系统会议论文集中。299–315。 -
耿等(2023)
耿世杰,谭俊涛,刘舒畅,傅佐辉,张永锋. 2023. VIP5:迈向多模态基础模型的推荐系统. arXiv 预印本 arXiv:2305.14302 (2023). -
郭等人(2017)
郭辉峰,唐瑞明,叶云明,李郑国,何修强。2017。DeepFM:一种基于因子分解机的神经网络用于 CTR 预测。在 IJCAI。 -
汉巴茨穆扬等(2021)
卡伦·汉巴兹穆扬,赫兰特·哈查特良,和乔纳森·梅。2021 年。Warp:词汇级对抗性重编程。arXiv 预印本 arXiv:2101.00121(2021 年)。 -
他和蔡(2017)
何湘南和蔡达成. 2017. 用于稀疏预测分析的神经分解机. 在 SIGIR. 355–364. -
黑格塞尔曼等人(2023)
斯蒂芬·赫格斯曼、亚历杭德罗·布恩迪亚、亨特·朗、莫妮卡·阿格拉瓦尔、姜晓轶和大卫·桑塔格。2023 年。《Tabllm:利用大型语言模型对表格数据进行小样本分类》。在国际人工智能与统计会议。PMLR,第 5549–5581 页。 -
侯等人(2022)
侯宇鹏,穆山磊,赵 Wayne Xin,李亚亮,丁博林,温吉荣。2022。面向推荐系统的通用序列表示学习。在第 28 届 ACM SIGKDD 知识发现与数据挖掘会议论文集中。585–593。 -
华等(2023a)
文悦华,葛英俊,徐淑媛,季建超,张永锋. 2023a. UP5: 公平感知推荐的 无偏基础模型. arXiv 预印本 arXiv:2305.12090 (2023). -
华等(2023b)
文悦华,徐舒媛,葛英俊,张永锋。2023b。如何为推荐基础模型索引物品 ID。arXiv 预印本 arXiv:2305.06569(2023)。 -
黄等(2019)
佟文黄,志奇张,俊林张. 2019. FiBiNET:结合特征重要性和双线性特征交互的点击率预测. 在第 13 届 ACM 推荐系统会议论文集中. 169–177. -
黄等(2022)
黄艳华,王航宇,缪艺云,徐瑞文,张磊,张伟楠。2022。点击率预测的神经统计方法。在第 45 届国际 ACM SIGIR 信息检索研究与发展会议论文集中。1849–1853。 -
焦等(2019)
肖奇蛟,尹一淳,尚立峰,姜新,陈晓,李琳琳,王芳,刘群。2019。TinyBERT:蒸馏 BERT 用于自然语言理解。arXiv 预印本 arXiv:1909.10351(2019)。 -
胡安等人(2016)
尤琴娟,庄勇,陈伟圣,林智仁。2016。面向点击率预测的领域感知分解机。在 RecSys 中。43–50。 -
康等人(2023)
王成康,倪健莫,尼基尔·梅塔,马赫斯瓦尔南·萨蒂亚莫 orthy,洪立展,埃德·奇,和德里克·智远程。2023。大型语言模型(LLMs)是否理解用户偏好?评估大型语言模型(LLMs)在用户评分预测上的表现。arXiv 预印本 arXiv:2305.06474 (2023)。 -
金等(2021)
金宝燮,金亨硕,李相宇,李吉昌,郭东贤,全东贤,朴成贤,金成주,金善勋,徐东弼等,2021。大规模语言模型能带来什么变化?对 HyperCLOVA 的深入研究:数十亿规模的韩语生成预训练变压器。arXiv 预印本 arXiv:2109.04650(2021)。 -
莱斯特等人(2021)
布莱恩·莱斯特,拉米·阿尔-拉福,和诺亚·康斯坦特。2021。规模对于参数高效提示调整的力量。arXiv 预印本 arXiv:2104.08691(2021)。 -
李等(2023b)
李家成,王明,李金,傅金苗,沈欣,尚静波,和朱利安·麦考利。2023b。文本即所需:为序列推荐学习语言表示。arXiv 预印本 arXiv:2305.13731(2023)。 -
李等(2023a)
李向阳,陈波,侯璐,唐瑞明。2023a。CTRL:连接表格和语言模型用于 CTR 预测。arXiv 预印本 arXiv:2306.02841(2023)。 -
李和梁(2021)
李香丽莎和 Percy Liang. 2021. Prefix-tuning:优化连续提示用于生成。arXiv 预印本 arXiv:2101.00190 (2021)。 -
李等(2020)
李泽宇,程伟,陈扬,陈海峰,王伟。2020。通过层次注意力实现可解释的点击率预测。在第 13 届国际网络搜索与数据挖掘会议论文集中。313–321。 -
李等(2019)
李泽坤,崔泽宇,吴舒,张晓宇,王亮。2019。Fi-gnn:通过图神经网络建模特征交互用于 CTR 预测。在第 28 届 ACM 国际信息与知识管理会议论文集中。539–548。 -
李等(2021)
李泽坤,吴舒,崔泽宇,张晓宇。2021。GraphFM:用于特征交互建模的图分解机。arXiv 预印本 arXiv:2105.11866(2021)。 -
连等人(2018)
连建勋,周晓环,张福政,陈中侠,谢星,孙广中。2018。xdeepfm:结合显式和隐式特征交互的推荐系统。在 KDD。1754–1763。 -
Lin 等人(2023a)
林江豪,戴新义,席云佳,刘伟文,陈波,李向阳,朱晨旭,郭会锋,于勇,唐瑞明,等 2023a。推荐系统如何从大型语言模型中获益:一项综述。arXiv 预印本 arXiv:2306.05817 (2023)。 -
林等(2021)
林江浩,刘伟文,戴新义,张伟男,李帅,唐瑞明,何修强,郝建业,余勇。2021。一种图增强的点击模型用于网页搜索。在第 44 届国际 ACM SIGIR 信息检索研究与发展会议上发表。1259–1268。 -
林等(2023b)
林江豪,曲艳如,郭伟,戴新义,唐瑞明,余勇,张伟楠。2023b。MAP:一种模型无关的点击率预测预训练框架。在第 29 届 ACM SIGKDD 知识发现与数据挖掘会议论文集中。1379–1389。 -
林等(2023c)
林江豪,单蓉,朱晨旭,杜鲲年化,陈波,权世刚,唐瑞明,于勇,张伟男。2023c。ReLLa:用于推荐中终身序列行为理解的检索增强大型语言模型。arXiv 预印本 arXiv:2308.11131(2023)。 -
刘等(2019b)
刘斌,唐瑞明,陈英志,余金凯,郭惠锋,张宇舟。2019b。基于卷积神经网络的特征生成用于点击率预测。在 WWW 中。1119–1129。 -
刘等(2022)
刘广,杨杰,和 Ledell Wu。2022。PTab:使用预训练语言模型对表格数据进行建模。arXiv 预印本 arXiv:2209.08060(2022)。 -
刘等(2023a)
刘俊岭,刘超,吕仁杰,周康,张岩。2023a。ChatGPT 是一个好的推荐系统吗?一项初步研究。arXiv 预印本 arXiv:2304.10149(2023)。 -
刘等(2015)
刘强,于锋,吴曙,和王亮。2015。一种卷积点击预测模型。在第 24 届 ACM 国际信息与知识管理会议上论文集。ACM,1743–1746。 -
刘等(2021)
刘晓、纪凯旋、傅易成、谭翁林、杜正晓、杨志林、唐杰。2021。P-tuning v2:提示调优在跨尺度和任务中普遍可媲美微调。arXiv 预印本 arXiv:2110.07602(2021)。 -
刘等(2023b)
刘晓,郑亚南,杜正晓,丁明,钱宇杰,杨志林,唐杰。2023b。GPT 也能理解。AI Open(2023)。 -
刘等(2019a)
刘引汉,迈乐·奥特,纳曼·戈亚尔,杜京飞,曼达尔·乔希,陈丹琦,奥默·利维,迈克·刘易斯,卢克·泽特莫耶,以及维塞林·斯托扬诺夫。2019a。Roberta:一种鲁棒性优化的 BERT 预训练方法。arXiv 预印本 arXiv:1907.11692(2019)。 -
洛希尔和胡特(2017)
伊利亚·洛什奇洛夫和弗兰克·胡特。2017。解耦权重衰减正则化。arXiv 预印本 arXiv:1711.05101(2017)。 -
毛等(2023)
毛志明,王惠民,杜一鸣,和王嘉辉。2023。UniTRec:一种用于文本推荐的一体化文本到文本 Transformer 和联合对比学习框架。arXiv 预印本 arXiv:2305.15756(2023)。 -
穆罕默德等(2021)
阿什克·穆罕默德,伊曼·凯万卢,苏詹·佩雷拉,詹姆斯·姆拉切克,徐毅,崔清君,桑托什·拉贾戈帕兰,曾碧兰,和特里舒尔·奇利姆比。2021 年。CTR-BERT:针对十亿参数教师模型的高效知识蒸馏方法。在 NeurIPS 高效自然语言与语音处理研讨会。 -
秦和艾斯纳(2021)
秦光辉,杰森·艾斯纳。2021。学会提问:用软提示混合查询语言模型。arXiv 预印本 arXiv:2104.06599(2021)。 -
曲等人(2016)
屈延儒,蔡涵,任侃,张 Weinan,于勇,文颖,王俊。2016。基于产品的神经网络用于用户响应预测。在 ICDM。 -
屈等人(2018)
屈延儒,方博辉,张伟楠,唐瑞明,牛旻哲,郭会锋,于勇,何修强。2018。基于产品的神经网络用于多字段分类数据用户响应预测。TOIS 37, 1 (2018), 1–35。 -
拉德福德等人(2021)
亚历克·拉德福德,jong wook kim,克里斯·哈拉西,阿迪亚·拉梅什,加布里埃尔·戈,桑迪尼·阿加瓦尔,吉里什·萨斯特里,阿曼达·阿斯克尔,帕梅拉·米什金,杰克·克拉克等,2021 年。从自然语言监督中学习可迁移的视觉模型。在国际机器学习会议上。PMLR,8748–8763。 -
拉斐尔等(2020)
科林·拉斐尔,诺姆·沙泽尔,亚当·罗伯茨,凯瑟琳·李,沙兰·纳朗,迈克尔·马特纳,颜奇·周,魏立,和彼得·J·刘。2020。探索统一文本到文本转换器的迁移学习极限。《机器学习研究杂志》21,1(2020),5485–5551。 -
伦德尔(2010)
斯蒂芬·伦德尔. 2010. 因子分解机. 在 ICDM 中. -
宋等人(2019)
宋伟平,石晨策,肖志平,段志坚,徐叶文,张明,唐健。2019 年。《Autoint:通过自注意力神经网络自动特征交互学习》。在 28 届 ACM 国际信息与知识管理会议论文集中。1161–1170。 -
王等(2022)
王方业,王颖旭,李东升,顾汉苏,卢豚,张鹏,顾宁。2022。基于上下文感知特征表示学习的点击率预测增强。arXiv 预印本 arXiv:2204.08758 (2022)。 -
王等(2017)
王若溪,傅斌,傅刚,王明亮。2017。用于广告点击预测的深度与交叉网络。在 ADKDD’17 会议录中。1–7。 -
王等(2021)
王若溪,拉凯什·希瓦娜,德里克·程,萨加尔·贾因,林东,洪立灿,及艾德·奇。2021。DCN v2:改进的深度与交叉网络及面向网络规模学习排序系统的实用经验。载于《2021 年网络会议论文集》。1785–1797。 -
吴等(2023)
吴立康,郑智,裘兆鹏,王浩,顾宏超,沈挺佳,秦川,朱晨,朱恒树,刘奇等,2023。关于推荐系统的大型语言模型综述。arXiv 预印本 arXiv:2305.19860(2023)。 -
习等(2023a)
咸家希,林江豪,刘伟文,戴新义,张伟南,张瑞,唐瑞明,和于勇。2023a。重排序鸟瞰:从列表级别到页面级别。在第十六届 ACM 国际网络搜索与数据挖掘会议论文集中。1075–1083。 -
习等(2023b)
云佳希,刘伟文,林江豪,朱杰明,陈波,唐瑞明,张伟南,张瑞,余勇。2023b。基于大型语言模型知识增强的开放世界推荐系统研究。arXiv 预印本 arXiv:2306.10933(2023)。 -
肖等人(2017)
肖骏,叶昊,何向南,张汉旺,吴飞,蔡达森。2017。注意力因子分解机:通过注意力网络学习特征交互的权重。IJCAI(2017)。 -
徐与麦考利(2023)
徐灿文和朱利安·麦考利. 2023. 预训练语言模型压缩与加速综述. 在 AAAI 人工智能会议论文集, 第 37 卷. 10566–10575. -
张等人(2023)
张俊杰,谢若冰,侯宇鹏,赵 Wayne Xin,林乐宇,温继荣。2023。推荐作为指令跟随:一种由大型语言模型赋能的推荐方法。arXiv 预印本 arXiv:2305.07001(2023)。 -
张等(2021)
张伟楠,秦佳瑞,郭威,唐瑞明,何秀强。2021。深度学习在点击率估计中的应用。IJCAI(2021)。 -
张和王(2023)
张子卓和汪邦。2023。新闻推荐的提示学习。arXiv 预印本 arXiv:2304.05263(2023)。
附录 A 数据预处理
我们在来自不同推荐场景的四个真实数据集上进行实验。以下提供了关于数据预处理的信息:
-
• Movielens-1M 是来自 Movielens 网站的电影推荐数据集,评分范围从 1 到 5。我们将评分以 4 为阈值进行二值化,同时移除评分为 3 的中立样本(李等,2021;宋等,2019)。 -
• BookCrossing 是来自 BookCrossing 网站的一个书籍推荐数据集,评分范围从 0 到 10。我们将评分转换为二元标签,阈值为 5。 -
• Amazon-Toys 是来自亚马逊的玩具类别电子商务数据集,评分范围为 1 至 5。我们将评分以 4 为阈值进行二值化处理。我们应用 5-core 过滤,以确保每个用户或物品至少有五条互动记录(李等,2021;耿等,2022)。 -
• GoodReads 是来自 GoodReads 网站的一个图书推荐数据集,评分范围从 1 到 5。我们将评分转换为二进制标签,阈值为 4。与 Amazon-Toys 类似,我们应用 10-core 过滤,以确保每个用户或项目至少有十条互动记录。
附录 B 基线实施
在本节中,我们给出了来自两个不同类别的每个基线模型的超参数配置:(1)传统 CTR 模型,以及(2)基于 PLM 的 CTR 模型。
B.1. 传统 CTR 模型
我们基于点击信号从头开始训练每个传统的 CTR 模型,不进行预训练。
类似于 ClickPrompt 的微调阶段,我们采用 AdamW (Loshchilov and Hutter, 2017)作为优化器。批量大小设置为 (用于 Movielens-1M)、 (用于 BookCrossing)、 (用于 AZ-Toys)和 (用于 GoodReads)。学习率设置为 。我们将嵌入大小设置为 (用于 MovieLens-1M 和 BookCrossing),以及 (用于 Amazon-Toys 和 GoodReads)。dropout 率从 中选择。我们在特征交互层之后使用一个线性层来进行最终的 CTR 预测。除非另有说明,我们采用 ReLU 作为激活函数。基础模型特有的超参数设置如下:
-
• DNN。我们从 中选择 DNN 层的规模,从 中选择 DNN 层的数量。 -
• DeepFM(郭等人,2017 年)。我们从 中选择 DNN 层的规模,从 中选择 DNN 层的数量。 -
• xDeepFM(连等人,2018 年)。我们从 中选择 CIN 层的数量,每个 CIN 层的单元数设置为 。我们从 中选择 DNN 层的大小,DNN 层的数量从 中选择。 -
• IPNN(Qu 等人,2016 年)。我们从 中选择 DNN 层的规模,从 中选择 DNN 层的数量。 -
• DCN(王等,2017 年)。我们从 中选择 DNN 层的规模,从 中选择 DNN 层的数量。我们强制 CrossNet 模块与 DNN 网络具有相同数量的层。 -
• AutoInt(宋等,2019 年)。我们从 中选择注意力层的数量。每层注意力头的数量和注意力大小分别设置为 和 。 -
• FiGNN(李等,2019 年)。我们从 中选择层数,并对图层应用残差连接。 -
• FGCNN。我们保持 4 个 tanh 激活的卷积层,每层核大小为 7,池化大小为 2。每层的通道数分别设置为 。重组层的通道数均设置为 。 -
• DCNv2(王等,2021 年)。我们从 中选择 DNN 层的规模,从 中选择 DNN 层的数量。我们强制 CrossNet 模块具有与 DNN 网络相同的层数。
B.2. 基于 PLM 的 CTR 模型
该方法通常整合了用于 CTR 预测的预训练语言模型。我们保持 PLM 的结构不变,并如下描述每个模型的训练设置。请注意,我们使用 AdamW (Loshchilov and Hutter, 2017)作为所有基于 PLM 的基线模型的优化器。
-
• CTR-BERT(Muhamed 等人,2021 年)。我们基于 BERT(Devlin 等人,2018 年)模型,保持一个双塔模型结构,分别对用户和物品信息进行编码。我们将总调优轮数设置为 10,批量大小为 1024。学习率设置为 ,并采用线性衰减。预热比例设置为 0.05。 -
• P5(Geng 等,2022 年)是一个以 T5(Raffel 等,2020 年)作为骨干预训练语言模型的统一序列到序列框架,适用于多种推荐任务。在本文中,我们仅利用 P5 进行单一任务(即 CTR 预测)。总训练轮数设置为 10,批次大小为 32。学习率从 中选择,并采用线性衰减。预热比例为 0.05。遵循 P5 的官方实现,我们也进行了梯度裁剪,阈值等于 1.0。 -
• PTab(刘等,2022)采用了基于 BERT(Devlin 等,2018)模型的常见预训练-微调方案。PTab 首先使用基于文本化的 CTR 数据的经典掩码语言建模目标对 BERT 模型进行进一步预训练,然后将 BERT 微调为下游 CTR 预测,将其视为文本分类问题。根据原始论文,我们对 BERT 进行 10 个 epoch 的预训练,批次大小为 1024。预训练的学习率设置为 ,并采用线性衰减。预热比率为 0.05。至于微调,总微调 epoch 数设置为 10,批次大小为 1024。微调的学习率初始化为 ,并采用线性衰减。预热比率为 0.01。 -
• CTRL(李等,2023a)设计了一个对比预训练框架,以隐式地对齐来自 CTR 模型的协同知识和来自 PLM 的语义知识。根据原始论文,我们选择 AutoInt 作为骨干 CTR 模型,选择 TinyBERT(焦等,2019)作为骨干 PLM。我们首先进行 20 个 epoch 的对比预训练,然后对 AutoInt 进行微调以用于下游 CTR 预测任务。AutoInt 的模型结构根据附录 B.1 中所述的网格搜索结果设置为最佳配置。其他训练配置与 CTRL 原始论文(李等,2023a)中报告的相同。
附录 C 附加实验
C.1. 案例研究
我们进行了一项案例研究,以进一步说明预训练语言模型(PLMs)通过自适应地为软提示分配注意力权重模式,从中提取相应的“正确答案”。
我们在 MovieLens-1M 数据集上进行实验。我们将 PLM 主干设置为 RoBERTa-base,将 CTR 主干模型设置为 DCNv2。每层的提示数 设置为 5。我们通过掩盖同一数据样本不同领域的文本特征,展示了最后一层五个软提示的归一化注意力分数。结果如表7所示。为了重构一个数据样本的不同领域文本,PLMs 学习为协同信息提取在相同的五个软提示上分配不同的注意力权重模式。此外,在大多数情况下,PLMs 甚至学习自适应地将某些注意力分数设置为接近零(即,0.0000),以过滤掉来自某些软提示的信息。通过这种方式,PLMs 通过自适应地在软提示上分配注意力权重模式,从中提取有用信息。
表 7. 在遮蔽不同领域文本时,五个软提示的注意力得分。
遮蔽场 | 软提示注意力得分 |
||||
1st | 2nd:第二 | 三号 | 4th 四号 | 5th 五号 Note: The translation of "5th" can vary depending on the context. If it refers to an ordinal number in a sequence (e.g., 5th item), it would be translated as "第五". However, if it refers to a specific label or identifier (e.g., 5th edition), it might be translated as "五号". Please adjust based on the specific context of the academic text | |
用户 ID | 0.1931 | 0.2394 | 0.1640 | 0.2232 | 0.1803 |
性别 | 0.2806 | 0.2764 | 0.1918 | 0.0000 | 0.2513 |
年龄 | 0.2781 | 0.2853 | 0.0000 | 0.2894 | 0.2473 |
电影 ID | 0.2781 | 0.2853 | 0.1894 | 0.0000 | 0.2473 |
电影标题 | 0.2590 | 0.2598 | 0.2035 | 0.2777 | 0.0000 |
电影类型 | 0.3212 | 0.3281 | 0.0000 | 0.3507 | 0.0000 |
C.2. 推理时间
我们报告了 ClickPrompt(采用两种不同的微调策略)和四个代表性基线(即 AutoInt、DCNv2、PTab、P5)在四个数据集上每批次的推理时间。还提供了每个模型相对于 AutoInt 的平均 AUC 相对改进(Avg. Rel. Imrpv.)。评估批次大小设置为 128。对于 ClickPrompt,我们选择 DCNv2 作为骨干 CTR 模型,并选择 RoBERTa-base 作为骨干 PLM。此实验仅在配备一块 GeForce RTX 4090 GPU 的同一服务器上进行。我们在表8中报告了结果。我们可以观察到,ClickPromptwithPLM以相对较高的推理成本实现了最佳性能。然而,我们提供了另一种选择,即在不对模型结构进行修改或不增加推理开销的情况下,通过仅对 CTR 模型进行语义感知初始化的微调。这种方法使我们能够实现高效的微调并提升 CTR 预测性能。
表 8. 批大小为 128 时每批次的推理时间(毫秒)。
Model | ML-1M | BX | AZ-玩具 | GD | AUC 改进 |
AutoInt | 2.13 | 2.52 | 2.29 | 2.27 | - |
DCNv2 | 1.56 | 1.57 | 1.21 | 1.54 | 0.35% |
PTab | 31.3 | 38.5 | 32.5 | 71.4 | -0.41% |
CTRL | 1.56 | 1.57 | 1.21 | 1.54 | 0.74% |
ClickPrompt无 PLM |
1.56 | 1.57 | 1.21 | 1.54 | 0.74% |
ClickPromptwithPLM | 30.9 | 37.0 | 32.1 | 66.7 | 1.06% |
C.3. 泛化
我们进行了以下额外的兼容性实验,以进一步验证我们提出的 ClickPrompt 在 PLM 架构方面的模型兼容性。我们选择 DCNv2 作为骨干 CTR 模型,并选择 GPT2(仅解码器)和 BART(编码器-解码器)作为骨干 PLMs。兼容性实验在 MovieLens-1M、BookCrossing 和 Amazon-Toys 数据集上进行。我们还对 GPT2 和 BART 应用了逐层提示策略。对于 GPT2,预训练目标从提示增强的掩码语言建模(PA-MLM)切换到提示增强的因果语言建模(PA-CLM)。结果在表9中给出。
表 9. ClickPrompt 对 GPT2(仅解码器)和 BART(编码器-解码器)作为骨干 PLMs 的模型兼容性。
Model | 微调 | AUC | 对数损失 | 相对改进 |
MovieLens-1M 翻译文本:MovieLens-1M | ||||
DCNv2 | N/A | 0.8439 | 0.3954 | - |
GPT2 | 与 PLM | 0.8460 | 0.3944 | 0.25% |
无 PLM | 0.8455 | 0.3909 | 0.19% | |
BART | 与 PLM | 0.8468 | 0.3932 | 0.34% |
无 PLM | 0.8460 | 0.3940 | 0.25% | |
图书漂流 | ||||
DCNv2 | 由于没有提供源文本,无法进行翻译。请提供需要翻译的学术文本,以便我能够为您提供准确的简体中文翻译 | 0.7970 | 0.5096 | - |
GPT2 | 与 PLM | 0.7983 | 0.5081 | 0.16% |
无 PLM | 0.7982 | 0.5087 | 0.15% | |
BART | 使用 PLM | 0.7992 | 0.5072 | 0.28% |
无 PLM | 0.7985 | 0.5077 | 0.19% | |
亚马逊-玩具 | ||||
DCNv2 | 不适用 | 0.6701 | 0.3961 | - |
GPT2 | 与 PLM | 0.6718 | 0.3900 | 0.25% |
无 PLM | 0.6711 | 0.3959 | 0.15% | |
BART | 与 PLM | 0.6722 | 0.3944 | 0.31% |
无 PLM | 0.6709 | 0.3950 | 0.12% |