这是用户在 2024-9-28 13:54 为 https://arxiv.org/html/2408.06577v1 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

许可证:arXiv.org 永久非独占许可

arXiv:2408.06577v1 [cs.IR] 2024 年 8 月 13 日
\pdfcolInitStack

tcb@breakable


提示调优作为用户固有特征推断机制

 卢宇生
同济大学上海中国

香港城市大学 香港 中国
luyusheng@tongji.edu.cn
 赵城都
华为诺亚方舟实验室深圳中国
zhaochengdu@huawei.com
 李向阳
华为诺亚方舟实验室深圳中国
lixiangyang34@huawei.com
 赵翔宇
香港城市大学 香港 中国
xianzhao@cityu.edu.hk
 刘伟文
华为诺亚方舟实验室深圳中国
liuweiwen8@huawei.com
 王奕超
华为诺亚方舟实验室深圳中国
wangyichao5@huawei.com
 郭慧峰
华为诺亚方舟实验室深圳中国
huifeng.guo@huawei.com
 唐瑞明
华为诺亚方舟实验室深圳中国
tangruiming@huawei.com
 董振华
华为诺亚方舟实验室深圳中国
dongzhenhua@huawei.com
 and   段永瑞
同济大学上海中国
yrduan@tongji.edu.cn
(2024)
 摘要


大型语言模型(LLMs)在推荐系统中展现出显著潜力,通过其广泛的世界知识和卓越的推理能力赋能用户画像。然而,LLMs面临诸如指令遵守不稳定、模态差距和高推理延迟等挑战,导致文本噪声,限制了其在推荐系统中的有效性。为应对这些挑战,我们提出 UserIP-Tuning,利用提示调优推断用户画像。它将用户画像与行为序列之间的因果关系整合到LLMs的提示中,并采用期望最大化推断嵌入的潜在画像,通过固定提示模板最小化文本噪声。此外,一个画像量化码本通过将画像嵌入分类为协作 ID 来弥合模态差距,这些 ID 预先存储以供在线部署,从而提高时间效率并减少内存使用。在四个公开数据集上的实验表明,UserIP-Tuning 优于现有最先进的推荐算法。额外的测试和案例研究证实了其有效性、鲁棒性和可迁移性。


因果推断;推荐系统;大型语言模型;用户画像建模

2024

版权:acmcopyright

会议:确保从您的权利确认电子邮件中输入正确的会议标题(会议缩写‘XX’)。; printacmref=true

信息系统 推荐系统


1. 引言

Refer to caption

图 1. 基于可观察行为利用LLMs推断用户潜在特征的示例。蓝色线条表示信息丰富的特征,而白色线条代表推荐任务中的噪声。


推荐系统根据用户的历史记录和偏好提供建议(罗等人, 2023; 李等人, 2023b; 侯等人, 2023; 罗等人, 2023),帮助管理信息过载并提升平台性能。然而,由于隐私问题或这些档案的抽象性质,这些系统通常缺乏用户的潜在档案——即用户行为背后的潜在动机(周等人, 2022; 吴等人, 2020)。例如,家庭背景和职业信息经常缺失或难以量化。例如,一项调查(周等人, 2022)显示,只有 40%的 Facebook 用户公开职业细节。没有这些档案,推荐功能无法完全代表用户。而准确推断潜在档案可以显著提高推荐精度。


凭借卓越的推理能力和广泛的世界知识(Touvron 等,2023a,b;Izacard 等,2023;De Santis 等,2024),大型语言模型(LLMs)为基于可观察行为推断用户潜在特征提供了一种有前景的解决方案。例如,通过分析用户购买的奢侈品(图 1),LLMs 可以推断出“职业成功”和“社会地位”等可量化的潜在特征,这些特征可用作用户特征,以提高推荐系统的性能。


已经做出了显著的努力来利用LLMs的推理能力增强推荐系统(周等人,2022;谢等人,2022;闵等人,2022;王等人,2023。例如,KAR(席等人,2023策略性地设计提示以激活LLMs的剖面推理能力。推理出的文本随后使用 BERT(肯顿和图特诺娃,2019进行嵌入并在线部署。同样,LFM(王等人,2023采用LLMs从互动历史中生成基于文本的用户剖面,进而为LLM基础的推荐任务提供上下文。然而,这些方法遇到了不容忽视的理论和实践挑战:

Refer to caption

图 2. 用户的潜在特征与观察行为。

  • 1)扭曲的因果关系:LLMs是自回归的,其中先前的词语是后续词语的原因(Lester 等人,2021 年;谢等人,2022 年)。由于推荐任务传统上将用户画像视为互动的原因(见图 2)。当转换为自回归序列时,潜在画像应该先于并影响互动。然而,现有方法颠倒了这一顺序。

  • 2)文本噪声:LLM的不稳定指令跟随问题(Taori 等,2023;Touvron 等,2023b;Dubois 等,2024)及其链式思维(CoT)推理(Wei 等,2022)通常会使推断的潜在剖面充满文本噪声(Cai 等,2023;Tan 等,2023),(见图 1)。将目标剖面定位在可调提示中可以帮助聚焦和精炼推断的剖面信息。

  • 3)模态差距:语言模型输出中嵌入的复杂语法和语义往往过于繁琐,以至于推荐系统难以有效学习,这可能损害性能(张等人,2023;包等人,2023)。设计模块以过滤和提取这些嵌入中的有用协作信号至关重要。

  • 4)推理效率低下:数十亿参数的LLMs挑战在线推荐系统的低延迟需求。大型文本嵌入也增加了计算负载。探索将这些嵌入转换为更简单、稀疏的特征,如“性别”或“种族”,可能会有所帮助。


受到所概述挑战的驱动以及受近期软提示调优技术进展的启发(Lester 等人., 2021; Li 等人., 2023d),我们提出了用户固有档案推理与提示调优(UserIP-Tuning)框架。该框架轻量、可控且易于与任何推荐模型集成。它由三个关键子模块组成:UserIP 推理、UserIP 量化以及预存储的 UserIP 特征库。


为应对前两个挑战,用户潜在特征推断模块将用户潜在画像视为提示模板内的可训练软标记。该提示旨在从LLMs中提取准确的用户行为序列。软标记通过期望最大化(EM)算法进行推断,该算法基于冻结的LLM的分布,最大化这些序列的似然度。对于剩余的两个挑战,用户潜在特征量化模块通过可训练的码本将训练后的软标记转换为稀疏特征 ID。这些 ID 共享相似的语义信息,功能类似于传统的稀疏特征,并存储在潜在特征库中以便在线部署。在四个数据集上的实验证实了 UserIP-Tuning 框架的有效性。主要贡献总结如下:


  • • UserIP-inference 模块是首个基于LLM软提示的用户画像推断算法,能够提升画像推断的因果性并避免文本噪声。

  • • 所提出的用户 IP 调优框架高效且模型无关。它可以在保证推理效率的前提下提升推荐模型的性能。

  • • 在公共数据集和工业数据集上进行了大量实验,以验证 UserIP-Tuning 在有效性、效率、泛化性和可解释性方面的优势。


2. 框架

Refer to caption

图 3. UserIP-Tuning 框架概览。此处展示了两个用户潜在画像:爱好、收入背景。UserIP-Tuning 包含一个 UserIP 推理模块、一个 UserIP 量化模块以及一个预存储的 UserIP 特征库。


本节介绍了 UserIP-Tuning 框架的技术细节。首先,描述了问题设定和预备知识。


2.1. 初步准备与设置


学习推荐模型可以被视为学习一个映射函数 ffitalic_f ,该函数将一组描述性特征集 EEitalic_E 映射到推荐目标 yrecsuperscripty^{rec}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT ,如下公式所示:

(1) yrec=f(E)superscript𝑦𝑟𝑒𝑐𝑓𝐸\small y^{rec}=f(E)italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT = italic_f ( italic_E )


通常,描述性特征集 EEitalic_E ,包括可观察特征如性别或年龄( EobssubscriptE_{obs}italic_E start_POSTSUBSCRIPT italic_o italic_b italic_s end_POSTSUBSCRIPT ),是从日志系统信息中提取的。然而,由于隐私问题或其抽象性质,不可观察的用户潜在特征( ElatentsubscriptE_{latent}italic_E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT ),如家庭背景或个人特质,往往是缺失的。


EobssubscriptE_{obs}italic_E start_POSTSUBSCRIPT italic_o italic_b italic_s end_POSTSUBSCRIPT 相同, ElatentsubscriptE_{latent}italic_E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT 是用户行为的原因。这种因果关系在图2中展示。一个富裕家庭(潜在剖面)通常更愿意购买奢侈品,而一个音乐爱好者(潜在剖面)可能会收藏许多乐器。从数学上讲,我们将 ElatentsubscriptE_{latent}italic_E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT 表示为一组可训练的软标记 θ1,θ2,,θMsuperscript1superscript2superscript{\theta^{1},\theta^{2},...,\theta^{M}}italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ,其中每个标记代表一个独特的潜在剖面变量。然后,这个问题就变成了一个推理问题,即寻找最佳的潜在变量集以最大化观察到的用户行为的似然性。

(2) Elatent=argmaxθPϕ(yrec|θ1,θ2,,θM)subscript𝐸𝑙𝑎𝑡𝑒𝑛𝑡𝑎𝑟𝑔𝑚𝑎subscript𝑥𝜃subscript𝑃italic-ϕconditionalsuperscript𝑦𝑟𝑒𝑐superscript𝜃1superscript𝜃2superscript𝜃𝑀\small E_{latent}=argmax_{\theta}P_{\phi}(y^{rec}|\theta^{1},\theta^{2},...,% \theta^{M})italic_E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT = italic_a italic_r italic_g italic_m italic_a italic_x start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT | italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT )


在这个公式中, PϕsubscriptP_{\phi}italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT 是一个将用户的潜在特征映射到观察到的用户行为概率的函数。不幸的是,在推荐领域,并没有现成的 PϕsubscriptP_{\phi}italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT 可以在未确切看到 θ1,θ2,,θMsuperscript1superscript2superscript\theta^{1},\theta^{2},...,\theta^{M}italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT 的情况下使用。然而,LLMs 可以作为 PϕsubscriptP_{\phi}italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT 的替代模型,这得益于其丰富的世界知识和卓越的推理能力。我们设计了 UserIP-Tuning 框架,以在语义空间中执行这一潜在特征推断任务,同时解决引言中提到的四个挑战。


2.2. 框架概述


用户 IP 调优过程如图3所示。它包括一个用户 IP 推理模块、一个用户 IP 量化模块和一个预存储的用户 IP 特征库。推理模块将用户的潜在画像视为软提示,并通过最大化真实用户交互序列的似然度来推断它们。然后,这些潜在画像通过一个可训练的量化模块被哈希成离散的协同 ID,该模块由推荐损失监督。最后,这些 ID 被存储在离线特征库中,用于下游推荐任务。


2.3. 用户 IP 推断模块


为解决引言部分提到的扭曲的因果关系和文本噪声问题,我们设计了用户 IP 推断模块。该模块在LLMs的语义空间中,利用任务特定的软提示和因果掩码,对图2中描述的潜在特征推断问题进行建模。


首先,图2中展示的概率图被重新组织,以适应图4(上)所示的LLMs的自回归结构,其中左部分被视为提示,右部分被视为真实输出。为了减少文本噪声,只有紧邻目标潜在轮廓名称( xxitalic_x )的标记( θ\thetaitalic_θ )被视为软提示。此外,这些软提示只能受其各自潜在轮廓名称的影响。


文本提示被设计用来满足上述因果关系,包含三个组成部分:(1)上下文标记 xxitalic_x ,用于指示我们感兴趣的潜在特征;(2)可调节的软潜在特征标记 θ\thetaitalic_θ ,以便最大化用户互动行为的可能性;(3)特定任务描述 DtasksubscriptD_{task}italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT ,例如目标项目的用户点击历史预测或评论预测。提示的模板以公式形式呈现:

(3) [LM,Dtask]=[x1,θ1,x2,θ2,,xM,θM,Dtask]superscriptsubscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘superscript𝑥1superscript𝜃1superscript𝑥2superscript𝜃2superscript𝑥𝑀superscript𝜃𝑀subscript𝐷𝑡𝑎𝑠𝑘\small[L_{M}^{{}^{\prime}},D_{task}]=[x^{1},\theta^{1},x^{2},\theta^{2},...,x^% {M},\theta^{M},D_{task}][ italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT start_POSTSUPERSCRIPT start_FLOATSUPERSCRIPT ′ end_FLOATSUPERSCRIPT end_POSTSUPERSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT ] = [ italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT ]


其中 LMsuperscriptsubscriptL_{M}^{{}^{\prime}}italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT start_POSTSUPERSCRIPT start_FLOATSUPERSCRIPT ′ end_FLOATSUPERSCRIPT end_POSTSUPERSCRIPT 通常表示连接的潜在剖面名称 xxitalic_x 和软潜在剖面标记 θ\thetaitalic_θ 。例如,图3及以下提示模板展示了提示,其中 x1subscript1x_{1}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT 是“这位用户的爱好是”, x2subscript2x_{2}italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 是“他的背景是”。通过将每个剖面名称放在其对应的潜在剖面标记之前,LLMs被迫更加可控地推断潜在剖面,因为LLMs在 NLP 任务中训练考虑语言上下文。

[Uncaptioned image]


此外,为确保软提示只能受其各自潜在剖面名称的影响,在模型训练中使用了特定的因果掩码,如图4(下)所示。通过这种因果掩码,潜在剖面变量 θ1subscript1\theta_{1}italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTθ2subscript2\theta_{2}italic_θ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 只能关注其各自的剖面名称和交互,而对其他无关词汇视而不见。


基于上述的提示和因果掩码,LLMs将生成用户交互序列的概率分布。 然后我们计算在该分布下我们真实用户交互序列的可能性。通过使用梯度下降算法最大化可能性,反向推断第 mmitalic_m 个用户潜在轮廓 θmsuperscript\theta^{m}italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 的软标记嵌入,同时冻结剩余的LLMs参数。每个推断出的嵌入代表一种相应的轮廓类型,例如收入背景轮廓中的高收入,这对于捕捉用户偏好非常重要。


LLMs旨在预测用户 uuitalic_u 的交互历史,同时更新潜在配置文件变量 θmsuperscript\theta^{m}italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 。我们构建语言建模损失(交叉熵损失),利用真实的用户交互历史 yrecsuperscripty^{rec}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT 和生成的结果 y^recsuperscript\hat{y}^{rec}over^ start_ARG italic_y end_ARG start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT 。具体来说,在推断多个潜在配置文件变量后,微调的目标是最小化 (θ)=𝔼u[u(x1,x2,,xM,yrec,θ1,θ2,,θM)]subscriptdelimited-[]subscriptsuperscript1superscript2superscriptsuperscriptsuperscript1superscript2superscript\mathcal{L}(\theta)=\mathbb{E}_{u}[\ell_{u}(x^{1},x^{2},...,x^{M},y^{rec},% \theta^{1},\theta^{2},...,\theta^{M})]caligraphic_L ( italic_θ ) = blackboard_E start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT [ roman_ℓ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ) ]

(4) ullm(x1,x2,,xM,yrec,θ1,θ2,,θM)subscriptsuperscript𝑙𝑙𝑚𝑢superscript𝑥1superscript𝑥2superscript𝑥𝑀superscript𝑦𝑟𝑒𝑐superscript𝜃1superscript𝜃2superscript𝜃𝑀\displaystyle\ell^{llm}_{u}(x^{1},x^{2},...,x^{M},y^{rec},\theta^{1},\theta^{2% },...,\theta^{M})roman_ℓ start_POSTSUPERSCRIPT italic_l italic_l italic_m end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT )
=logPLLM(yrec|x1,x2,,xM,θ1,θ2,,θM)absent𝑙𝑜𝑔subscript𝑃𝐿𝐿𝑀conditionalsuperscript𝑦𝑟𝑒𝑐superscript𝑥1superscript𝑥2superscript𝑥𝑀superscript𝜃1superscript𝜃2superscript𝜃𝑀\displaystyle=-logP_{LLM}(y^{rec}|x^{1},x^{2},...,x^{M},\theta^{1},\theta^{2},% ...,\theta^{M})= - italic_l italic_o italic_g italic_P start_POSTSUBSCRIPT italic_L italic_L italic_M end_POSTSUBSCRIPT ( italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT | italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT )


为从理论上证明我们框架的有效性,我们首先假设LLMs的预训练数据分布 PϕsubscriptP_{\phi}italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT 能够适当地近似真实数据分布 PPitalic_P

 假设 2.1。


假设 Pϕ(x)=P(x)subscriptP_{\phi}(x)=P(x)italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( italic_x ) = italic_P ( italic_x ) ,以及 PϕsubscriptP_{\phi}italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPTyrecsuperscripty^{rec}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPTx1superscript1x^{1}italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTx2superscript2x^{2}italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ,…, xMsuperscriptx^{M}italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPTθ1superscript1\theta^{1}italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTθ2superscript2\theta^{2}italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ,…, θMsuperscript\theta^{M}italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPTproportional-to\propto P(yrec|x1,x2,,xM,θ1,θ2,,θM)conditionalsuperscriptsuperscript1superscript2superscriptsuperscript1superscript2superscriptP(y^{rec}|x^{1},x^{2},...,x^{M},\theta^{1},\theta^{2},...,\theta^{M})italic_P ( italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT | italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ) 对于关系 x1,x2,,xMsuperscript1superscript2superscriptx^{1},x^{2},...,x^{M}italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT \to yrecsuperscripty^{rec}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT \leftarrow θ1,θ2,,θMsuperscript1superscript2superscript\theta^{1},\theta^{2},...,\theta^{M}italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ,其中用户潜在特征变量 θ\thetaitalic_θ 是独立同分布的。


这个假设在现有的LLMs文献中是常见的,这表明LLMs识别了语言的真实分布。此外,还得到了以下命题,

 命题 2.2。


随着用户潜在特征类别数 MMitalic_M 的增加,预测器 argmaxyrec𝒴subscriptsuperscriptarg\max_{y^{rec}\in\mathcal{Y}}italic_a italic_r italic_g roman_max start_POSTSUBSCRIPT italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT ∈ caligraphic_Y end_POSTSUBSCRIPT PϕsubscriptP_{\phi}italic_P start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPTyrecsuperscripty^{rec}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPTx1superscript1x^{1}italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTx2superscript2x^{2}italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ,…, xMsuperscriptx^{M}italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPTθ1superscript1\theta^{1}italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTθ2superscript2\theta^{2}italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ,…, θMsuperscript\theta^{M}italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT )是最佳预测器,生成的交互历史 yrecsuperscripty^{rec}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT 更接近真实交互历史,推断的用户潜在特征变量更准确,有利于推荐任务。证明。见附录A.1


从命题来看,随着用户潜在特征类别的增加,所推断的用户潜在特征变量被选为令人满意的推理结果。


然后,将学习到的潜在剖面变量输入到用户 IP 量化模块中,以消除超出范围的噪声。

Refer to caption

图 4. 缺失用户画像与行为之间的因果关系(上图)。曲线表示因果方向。请注意,潜在画像彼此独立。用户 IP 推理模块中的因果掩码(下图)。蓝色(灰色)方块表示列 jjitalic_j 将(不)关注行 iiitalic_i


2.4. 用户 IP 量化模块


上一节中推断的潜在轮廓嵌入的一个问题是,它们位于LLMs的语义空间内。这些嵌入包含丰富的语义信息,适用于 NLP 任务,但对于推荐任务来说可能过于详细。因为后一项任务只需要协同信号来训练轮廓表示。此外,LLMs的嵌入维度对于推荐任务来说过于庞大,难以进行高效的在线推理。


为了弥合 NLP 任务与推荐任务之间的模态差距,并进一步提高模型效率,设计了用户 IP 量化模块,用于从潜在剖面嵌入中提取轻量级协同 ID。 我们为每个推断的潜在剖面分配一个协作量化码本 𝒞msuperscript\mathcal{C}^{m}caligraphic_C start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 。对于每个码本,我们将码的大小设置为 KKitalic_Kkthsuperscriptk^{th}italic_k start_POSTSUPERSCRIPT italic_t italic_h end_POSTSUPERSCRIPT 码的嵌入表示为 {𝒗km}subscriptsuperscript\{\boldsymbol{v}^{m}_{k}\}{ bold_italic_v start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT }


码本学习过程与传统的 CV/NLP 模型有所不同(van den Oord 等., 2017; Rajput 等., 2023; 郑等., 2023),其中仅使用语义距离作为量化的监督。在 UserIP 中,嵌入用于在线推荐,其中建模协作是关键目标。因此,UserIP 的嵌入相似性也应基于协作信号(例如,参见啤酒与尿布案例,即使它们在语义空间中不同,在协作空间中却是接近的)。


为了整合协作目标,我们设计了以下损失函数(公式5)。损失函数的第一项将码本拉近潜在轮廓空间。 sg[]delimited-[]sg[\cdot]italic_s italic_g [ ⋅ ] 表示停止梯度运算符, β\betaitalic_β 是损失权重参数。第一部分最小化簇中心向量 vkmsuperscriptsubscriptv_{k}^{m}italic_v start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 与潜在轮廓变量 θmsuperscript\theta^{m}italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 之间的距离。第二部分约束轮廓嵌入的更新速度。第二项使用代理推荐模型损失训练潜在轮廓嵌入。 vcmmsuperscriptsubscriptsubscriptv_{c_{m}}^{m}italic_v start_POSTSUBSCRIPT italic_c start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 表示选定的码本嵌入(公式6), iiitalic_i 代表物品嵌入, EobssubscriptE_{obs}italic_E start_POSTSUBSCRIPT italic_o italic_b italic_s end_POSTSUBSCRIPT 代表其他用户轮廓。它直接使用码本嵌入作为推荐任务的输入,并通过直通梯度估计使用推荐损失更新潜在轮廓嵌入(与 lllmsuperscriptl^{llm}italic_l start_POSTSUPERSCRIPT italic_l italic_l italic_m end_POSTSUPERSCRIPT 一起)。

(5) uvec=subscriptsuperscript𝑣𝑒𝑐𝑢absent\displaystyle\ell^{vec}_{u}=roman_ℓ start_POSTSUPERSCRIPT italic_v italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = m=1M[sg[θm]vkm22+βθmsg[vkm]22]superscriptsubscript𝑚1𝑀delimited-[]subscriptsuperscriptnorm𝑠𝑔delimited-[]superscript𝜃𝑚superscriptsubscript𝑣𝑘𝑚22𝛽subscriptsuperscriptnormsuperscript𝜃𝑚𝑠𝑔delimited-[]superscriptsubscript𝑣𝑘𝑚22\displaystyle\sum_{m=1}^{M}[\left\|sg[\theta^{m}]-v_{k}^{m}\right\|^{2}_{2}+% \beta\left\|\theta^{m}-sg[v_{k}^{m}]\right\|^{2}_{2}]∑ start_POSTSUBSCRIPT italic_m = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT [ ∥ italic_s italic_g [ italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT ] - italic_v start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT + italic_β ∥ italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT - italic_s italic_g [ italic_v start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT ] ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ]
+BCE(y^rec,Recs(vc11,vcmm,Eobs,iu))𝐵𝐶𝐸superscript^𝑦𝑟𝑒𝑐𝑅𝑒superscript𝑐𝑠superscriptsubscript𝑣subscript𝑐11superscriptsubscript𝑣subscript𝑐𝑚𝑚subscript𝐸𝑜𝑏𝑠subscript𝑖𝑢\displaystyle+BCE(\hat{y}^{rec},Rec^{s}(v_{c_{1}}^{1},...v_{c_{m}}^{m},E_{obs}% ,i_{u}))+ italic_B italic_C italic_E ( over^ start_ARG italic_y end_ARG start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT , italic_R italic_e italic_c start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT ( italic_v start_POSTSUBSCRIPT italic_c start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , … italic_v start_POSTSUBSCRIPT italic_c start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT , italic_E start_POSTSUBSCRIPT italic_o italic_b italic_s end_POSTSUBSCRIPT , italic_i start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) )


训练后,通过查找与上一节推断出的潜在用户画像最接近的码本嵌入的索引,来推断用户的潜在画像 ID。

(6) cm=argminkθmvkm22subscript𝑐𝑚𝑎𝑟𝑔subscript𝑘subscriptsuperscriptnormsuperscript𝜃𝑚superscriptsubscript𝑣𝑘𝑚22\small c_{m}=arg\min_{k}\left\|\theta^{m}-v_{k}^{m}\right\|^{2}_{2}italic_c start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT = italic_a italic_r italic_g roman_min start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∥ italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT - italic_v start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT


潜在剖面训练的总损失定义如下,其中 α\alphaitalic_α 是损失权重。

(7) =llm+αvecsuperscript𝑙𝑙𝑚𝛼superscript𝑣𝑒𝑐\small\mathcal{L}=\ell^{llm}+\alpha*\ell^{vec}caligraphic_L = roman_ℓ start_POSTSUPERSCRIPT italic_l italic_l italic_m end_POSTSUPERSCRIPT + italic_α ∗ roman_ℓ start_POSTSUPERSCRIPT italic_v italic_e italic_c end_POSTSUPERSCRIPT


2.5. 用户 IP 特征库与下游推荐模型


训练大型文本嵌入和软标记显著增加了计算负载,导致在线推荐器的推理效率低下。 为解决推理效率低下的问题,在训练 UserIP-Tuning 后,将使用特征库来存储每个用户的潜在特征索引 c1subscript1c_{1}italic_c start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ,…, cMsubscriptc_{M}italic_c start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT 。在在线推理阶段,下游推荐模型可以直接在预存储的特征库中搜索用户的潜在特征索引,并添加到用户的特征字段中,而无需重新训练 UserIP-Tuning: Recommender[u,i,c1,c2,,cM]subscript1subscript2subscriptRecommender[u,i,c_{1},c_{2},...,c_{M}]italic_R italic_e italic_c italic_o italic_m italic_m italic_e italic_n italic_d italic_e italic_r [ italic_u , italic_i , italic_c start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_c start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_c start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ] 。这显著减少了训练时间,大幅提高了在线推理效率,并实现了低延迟。


为加强特征场信息,将用户的潜在特征指标添加到传统的推荐模型中,例如 DCN (王等., 2017)、DeepFM (郭等., 2017),以增强用户建模特征并提升协同信号,如图3所示。本模块中使用推荐模型 DCN (王等., 2017)来输出推荐预测结果 y^recsuperscript\hat{y}^{rec}over^ start_ARG italic_y end_ARG start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT 。在此,对于给定的用户-物品对,用户的潜在特征指标与用户 ID 和物品 ID 相连接,作为推荐模型的输入特征场,单一目标损失函数定义如下:

(8) y^rec=Rec[i,c1,c2,,cM,Eobs]superscript^𝑦𝑟𝑒𝑐𝑅𝑒𝑐𝑖subscript𝑐1subscript𝑐2subscript𝑐𝑀subscript𝐸𝑜𝑏𝑠\small\hat{y}^{rec}=Rec[i,c_{1},c_{2},...,c_{M},E_{obs}]over^ start_ARG italic_y end_ARG start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT = italic_R italic_e italic_c [ italic_i , italic_c start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_c start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_c start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_E start_POSTSUBSCRIPT italic_o italic_b italic_s end_POSTSUBSCRIPT ]
(9) u,irec=n=1Nynreclog(y^nrec)subscriptsuperscript𝑟𝑒𝑐𝑢𝑖superscriptsubscript𝑛1𝑁subscriptsuperscript𝑦𝑟𝑒𝑐𝑛𝑙𝑜𝑔subscriptsuperscript^𝑦𝑟𝑒𝑐𝑛\small\ell^{rec}_{u,i}=-\sum_{n=1}^{N}y^{rec}_{n}log(\hat{y}^{rec}_{n})roman_ℓ start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u , italic_i end_POSTSUBSCRIPT = - ∑ start_POSTSUBSCRIPT italic_n = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT italic_l italic_o italic_g ( over^ start_ARG italic_y end_ARG start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT )


其中 Rec[]delimited-[]Rec[\cdot]italic_R italic_e italic_c [ ⋅ ] 代表传统推荐模型, yirecsubscriptsuperscripty^{rec}_{i}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 表示用户 uuitalic_u 是否与物品 iiitalic_i 互动的真实二进制标签, y^irecsubscriptsuperscript\hat{y}^{rec}_{i}over^ start_ARG italic_y end_ARG start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 是来自 UserIP-Tuning 的互动预测概率, NNitalic_N 是用户-物品样本的数量。值得注意的是, yirecsubscriptsuperscripty^{rec}_{i}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 由用户评论评分决定:当物品 iiitalic_i 的评论评分大于 3 时, yirecsubscriptsuperscripty^{rec}_{i}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 等于 1,否则 yirecsubscriptsuperscripty^{rec}_{i}italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 为 0。


算法 1 用户 IP 调优算法。


输入:数据集 𝒟={(x1,x2,,xM,Dtask,yrec)}u,isubscriptsubscript1subscript2subscriptsubscriptsuperscript\mathcal{D}=\{(x_{1},x_{2},...,x_{M},D_{task},y^{rec})\}_{u,i}caligraphic_D = { ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_x start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT , italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT ) } start_POSTSUBSCRIPT italic_u , italic_i end_POSTSUBSCRIPT 中不同用户-物品对 (u,i)(u,i)( italic_u , italic_i ) 的样本,LLMs Llama2,用户画像令牌 θ1subscript1\theta_{1}italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTθ2superscript2\theta^{2}italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ,…, θMsuperscript\theta^{M}italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ,画像的码本大小 k1,k2,,kMsubscript1subscript2subscriptk_{1},k_{2},...,k_{M}italic_k start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_k start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_k start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT 。冻结 Llama2 中除 θmsuperscript\theta^{m}italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 以外的所有参数。


输出:微调的用户潜在特征嵌入,用户特征索引,量化码本。


1: 未收敛 执行

2:     在 𝒟\mathcal{D}caligraphic_D 中随机采样一个批次 \mathcal{B}caligraphic_B ,并初始化梯度 g10subscript10g_{1}\leftarrow 0italic_g start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ← 0g20subscript20g_{2}\leftarrow 0italic_g start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ← 0 ,以及 VQ 聚类中心 𝒗kmsubscriptsuperscript\boldsymbol{v}^{m}_{k}bold_italic_v start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT

3:对于 \mathcal{B}caligraphic_B 中的每个数据点 (x1,x2,,xM,Dtaski,yrec)subscript1subscript2subscriptsubscriptsubscriptsuperscript(x_{1},x_{2},...,x_{M},D_{task_{i}},y^{rec})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_x start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUBSCRIPT , italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT ) 执行

4:        根据公式4更新梯度 g1=g1+u,illm(x1,x2,,xM,yrecθ1,θ2,,θM)Elatentsubscript1subscript1subscriptsuperscriptsuperscript1superscript2superscriptsuperscriptsuperscript1superscript2superscriptsubscriptg_{1}=g_{1}+\frac{\partial\ell^{llm}_{u,i}(x^{1},x^{2},...,x^{M},y^{rec}\theta% ^{1},\theta^{2},...,\theta^{M})}{\partial\textit{E}_{latent}}italic_g start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = italic_g start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT + divide start_ARG ∂ roman_ℓ start_POSTSUPERSCRIPT italic_l italic_l italic_m end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u , italic_i end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_y start_POSTSUPERSCRIPT italic_r italic_e italic_c end_POSTSUPERSCRIPT italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ) end_ARG start_ARG ∂ E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT end_ARG

5:        通过公式6计算轮廓 c1subscript1c_{1}italic_c start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ,…, cMsubscriptc_{M}italic_c start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT 的最近邻索引,并根据公式5更新梯度 g2=g2+u,ivec(Elatent,vkm)𝒗kmsubscript2subscript2subscriptsuperscriptsubscriptsuperscriptsubscriptsubscriptsuperscriptg_{2}=g_{2}+\frac{\partial\ell^{vec}_{u,i}(\textit{E}_{latent},v_{k}^{m})}{% \partial\boldsymbol{v}^{m}_{k}}italic_g start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = italic_g start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT + divide start_ARG ∂ roman_ℓ start_POSTSUPERSCRIPT italic_v italic_e italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u , italic_i end_POSTSUBSCRIPT ( E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT , italic_v start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT ) end_ARG start_ARG ∂ bold_italic_v start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT end_ARG

6:更新潜在变量 Elatent=Elatentα(g1+g2)subscriptsubscriptsubscript1subscript2\textit{E}_{latent}=\textit{E}_{latent}-\alpha(g_{1}+g_{2})E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT = E start_POSTSUBSCRIPT italic_l italic_a italic_t italic_e italic_n italic_t end_POSTSUBSCRIPT - italic_α ( italic_g start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT + italic_g start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT )

7:        更新量化码本 𝒗km=𝒗kmαg2subscriptsuperscriptsubscriptsuperscriptsubscript2\boldsymbol{v}^{m}_{k}=\boldsymbol{v}^{m}_{k}-\alpha g_{2}bold_italic_v start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = bold_italic_v start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT - italic_α italic_g start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT

8:结束对于

9:结束循环

10:返回用于下游推荐系统的潜在剖面指数。


2.6. 优化过程


优化过程在算法1中进行了描述。具体而言,在每次迭代中,随机抽取一小批用户-物品交互记录和配置文件名称(第 1-2 行);然后,对于每个数据点,根据语言损失 llmsuperscript\ell^{llm}roman_ℓ start_POSTSUPERSCRIPT italic_l italic_l italic_m end_POSTSUPERSCRIPT 更新配置文件嵌入的梯度(第 3-4 行);接下来,计算每个推断出的配置文件嵌入的最近索引 cmsubscriptc_{m}italic_c start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT ,并根据量化损失 vecsuperscript\ell^{vec}roman_ℓ start_POSTSUPERSCRIPT italic_v italic_e italic_c end_POSTSUPERSCRIPT 更新码本的梯度并累积配置文件嵌入梯度(第 5 行);最后,更新配置文件嵌入和码本(第 6-7 行)。


3. 实验


在本节中,使用多个数据集进行了广泛的实验,以检验 UserIP-Tuning 的有效性。我们首先将 UserIP-Tuning 与先进基准进行比较,然后进行模型组件、超参数的研究。解决了以下研究问题:


  • • RQ1:UserIP-Tuning 在推荐任务中的表现与先进基线相比如何?

  • • RQ2:UserIP-Tuning 在不同下游推荐系统中的性能如何?

  • • RQ3:不同配置文件中矢量量化的码本大小是否会影响 UserIP-Tuning 的性能?量化模块如何影响 UserIP-Tuning?

  • • RQ4:UserIP-Tuning 的潜在剖面变量在实践中是否可解释和可控?

  • • RQ5:UserIP-Tuning 在工业应用场景中的表现如何?UserIP-Tuning 在推理上的效率如何?


3.1. 数据集


我们的模型在四个真实世界的开放数据集上进行评估,包括亚马逊服装鞋类和珠宝、电影和电视、视频游戏以及 Yelp。为简便起见,我们使用服装、电影和游戏来表示前三个数据集。下表介绍了这些数据集的概览信息(见表1)。


表 1. 数据集统计。
 数据  服装  电影  游戏 Yelp
 # 交互作用 179,223 441,783 19,927 1,293,247
 # 用户 38,764 7,506 2,490 27,147
 # 项目 22,919 7,360 8,912 20,266

# 稀疏性( %percent\%% )
99.98 99.20 99.91 99.76


亚马逊服装、电影和游戏 1

这是一个真实世界的产品评论数据集,包含各种子集类别。我们使用服装、电影和游戏子数据集,这些数据集记录了用户在 1 到 5 的评分范围内的评论和评分。数据集中的每个用户都与爱好和背景信息相关联,即用户的服装品牌偏好、电影、游戏类别偏好以及物品消费水平。

Yelp222https://www.yelp.com/dataset/documentation/main
这是一个餐厅评价数据集,记录了餐厅属性和用户的评价以及 5 星评分。每位用户都有爱好和背景信息,即用户对餐厅类别的偏好和餐厅消费水平。


表 2. 不同基线方法的性能比较。

 类型  方法  服装  电影  游戏 Yelp  AUC:曲线下面积  对数损失  AUC:曲线下面积  对数损失  AUC:曲线下面积  对数损失  AUC:曲线下面积  对数损失  浅层模型 FFM 0.5588 0.6212 0.7998 0.5090 0.6946 0.8347 0.6931 0.6903  原子力显微镜 0.5524 0.6181 0.7876 0.5656 0.6627 1.0342 0.6955 0.6836  深度模型 FiBiNet 0.5952 0.6198 0.8111 0.4659 0.6862 0.8823 0.7243 0.5621 DIFM 0.5935 0.5758 0.8054 0.4694 0.6897 0.9285 0.7174 0.5666 AFN 0.5945 0.5835 0.8050 0.4796 0.7022 0.8052 0.7169 0.6008 DeepFM 0.6015 0.5965 0.8061 0.4729 0.7221 0.8659 0.7017 0.6028 AutoInt 0.6023 0.6023 0.8072 0.4842 0.7257 0.8205 0.7194 0.6122 ONN 0.6094 0.5903 0.8121 0.4598 0.7223 0.8658 0.7253 0.5598 PNN 0.6088 0.5874 0.8154 0.4570 0.7178 0.7874 0.7287 0.5574 DCNv2 0.6148 0.5848 0.8134 0.4643 0.7263 0.7991 0.7237 0.5704 DCN 0.6214 0.5322 0.8167 0.4582 0.7317 0.7744 0.7259 0.5590  基于LLMs的模型 KAR 0.6003 0.5925 0.8058 0.4885 0.7136 0.8679 0.7146 0.5849  佩普勒 0.6101 0.5726 0.8095 0.4726 0.7188 0.8347 0.7227 0.5784 ReLLa 0.6214 0.5320 0.8099 0.4721 0.7322 0.7814 0.7290 0.5587  用户 IP-调优-gpt2 0.6234 0.5319 0.8179 0.4571 0.7329 0.7801 0.7311 0.5562  用户 IP-调优-拉玛 2 0.6269* 0.5126* 0.8184* 0.4566* 0.7393* 0.7285* 0.7314* 0.5558*  关系改进 4.5548% 3.8199% 0.5336% 0.3482% 3.2755% 6.2992% 1.1937% 0.2879%


*符号表示显著性水平为 p0.050.05p\leq 0.05italic_p ≤ 0.05粗体字体表示表现最佳的方法。


3.2. 评估指标


为验证 UserIP-Tuning 推荐效果的有效性,我们在四个数据集上进行了二分类(即点击率预测)。分类实验通过 AUC 和 Logloss 进行评估,其中 AUC 略有提高或 Logloss 略有降低(例如,0.001)可以代表我们模型性能的显著改进(郭等人., 2017)。此外,我们过滤了交互次数少于四次的冷启动用户和物品,并使用 3 作为阈值将评论分数转换为二进制标签。评论分数大于 3 的标记为“正面”( yyitalic_y = 1),其余的标记为“负面”( yyitalic_y = 0)。此外,根据(李等人., 2023a)(阎等人., 2014),UserIP-Tuning 的 AUC 和 Logloss 相对于最佳基线的相对改进计算如下:

(10) Rela.Improv.ofAUC=(AUC(model)0.5AUC(baseline)0.51)formulae-sequence𝑅𝑒𝑙𝑎𝐼𝑚𝑝𝑟𝑜𝑣𝑜𝑓𝐴𝑈𝐶𝐴𝑈𝐶𝑚𝑜𝑑𝑒𝑙0.5𝐴𝑈𝐶𝑏𝑎𝑠𝑒𝑙𝑖𝑛𝑒0.51\displaystyle Rela.Improv.ofAUC=(\frac{AUC(model)-0.5}{AUC(baseline)-0.5}-1)italic_R italic_e italic_l italic_a . italic_I italic_m italic_p italic_r italic_o italic_v . italic_o italic_f italic_A italic_U italic_C = ( divide start_ARG italic_A italic_U italic_C ( italic_m italic_o italic_d italic_e italic_l ) - 0.5 end_ARG start_ARG italic_A italic_U italic_C ( italic_b italic_a italic_s italic_e italic_l italic_i italic_n italic_e ) - 0.5 end_ARG - 1 )
(11) Rela.Improv.ofLogloss=Logloss(baseline)Logloss(model)Logloss(model)formulae-sequence𝑅𝑒𝑙𝑎𝐼𝑚𝑝𝑟𝑜𝑣𝑜𝑓𝐿𝑜𝑔𝑙𝑜𝑠𝑠𝐿𝑜𝑔𝑙𝑜𝑠𝑠𝑏𝑎𝑠𝑒𝑙𝑖𝑛𝑒𝐿𝑜𝑔𝑙𝑜𝑠𝑠𝑚𝑜𝑑𝑒𝑙𝐿𝑜𝑔𝑙𝑜𝑠𝑠𝑚𝑜𝑑𝑒𝑙\displaystyle Rela.Improv.ofLogloss=\frac{Logloss(baseline)-Logloss(model)}{% Logloss(model)}italic_R italic_e italic_l italic_a . italic_I italic_m italic_p italic_r italic_o italic_v . italic_o italic_f italic_L italic_o italic_g italic_l italic_o italic_s italic_s = divide start_ARG italic_L italic_o italic_g italic_l italic_o italic_s italic_s ( italic_b italic_a italic_s italic_e italic_l italic_i italic_n italic_e ) - italic_L italic_o italic_g italic_l italic_o italic_s italic_s ( italic_m italic_o italic_d italic_e italic_l ) end_ARG start_ARG italic_L italic_o italic_g italic_l italic_o italic_s italic_s ( italic_m italic_o italic_d italic_e italic_l ) end_ARG


3.3. 基线


本小节介绍了推荐任务的基线方法。UserIP-Tuning 的模型性能与三种类型的推荐基线进行了比较:浅层算法、先进的深度学习算法以及基于LLMs的推荐方法。首先,浅层算法主要包括二阶和高阶特征交互以及注意力方法,包括 FFM (胡安等., 2016)、AFM (肖等., 2017)。先进的深度学习算法基于深度交叉特征和因子分解机网络,包括 FiBiNet (黄等., 2019)、DIFM (卢等., 2021)、AFN (程等., 2020)、DeepFM (郭等., 2017)、AutoInt (宋等., 2019)、ONN (杨等., 2020)、PNN (曲等., 2016)、DCN (王等., 2017)、DCNv2 (王等., 2021)。我们还比较了我们的模型与基于LLMs的方法,如 KAR (席等.).,2023),PEPLER(李等2023d),和 ReLLa(林等2024),事实和推理知识增强推荐方法。


3.4. 实施细节


我们从 Huggingface3 选择了 Llama2-7B

作为 UserIP-Tuning 中LLMs的骨干。我们使用 Python 3.9 和 PyTorch 2.1.0 实现了所有比较方法。遵循前人工作(李等., 2023d; 廖等., 2023),实验中将训练集、验证集和测试集按 8:1:1 划分。基准测试的超参数默认设置以获得其最佳性能,并使用 Adam 优化器。Llama2-7B 中的嵌入大小为 4096,批量大小为 8。我们使用 AdamW 优化 UserIP-Tuning,并将批量大小设置为 128。在训练过程中,我们冻结LLMs的权重。学习率设置为 0.001,潜在配置文件嵌入大小为 4096。此外,爱好码本的数量设置为 4,背景码本的数量为 3。在下游推荐器 DCN 中,网络层数为 3,嵌入维度为 8,dropout 率为 0.2,MLP 嵌入维度为(16,16),我们使用物品 ID 和用户 ID 作为显式特征字段。损失权重为 βmsubscript\beta_{m}italic_β start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT =0.001, β\betaitalic_β =0.001, γ\gammaitalic_γ =0.001。我们使用一块 NVIDIA H800 80GB GPU。


3.5. 整体性能比较(RQ1)


为回答研究问题 1,将 UserIP-Tuning 与其他先进推荐算法进行了比较。总体性能如表2所示,其中最佳结果以粗体显示,次佳结果以下划线标出。


从表中我们可以观察到:1) 所提出的方法 UserIP-Tuning 显著超越了所有基线方法。在 Clothing、Movies、Games 和 Yelp 上,AUC 相对于最佳基准方法的相对改进值分别约为 4.55%、0.53%、3.28%和 1.19%;Logloss 相对于最佳基线的相对改进值分别约为 3.82%、0.35%、6.30%和 0.29%。UserIP-Tuning 的模型性能表明,推断出的用户潜在特征变量捕捉了用户画像。AUC 的相对性能改进基本上大于 Logloss,这意味着 UserIP-Tuning 增强了推荐精度并捕捉了用户偏好。2) 浅层传统基准方法 FFM、AFM 在四个真实数据集上取得了最差的预测结果。它们的预测基于训练阶段的用户-id 和物品-id 特征。这一评估结果说明,利用浅层特征交互可能会损害推荐效率。3) 深度学习基线方法如 PNN、DCN 表现优于传统算法,因为它们捕捉了更多多样性和协同信息。 然而,先进的深度学习方法仍然不如 UserIP-Tuning,因为 UserIP-Tuning 集成了用户画像变量和协同指数信号,有效提升了其捕捉用户偏好和互动信息的能力。4)基于LLMs的方法,如 KAR、PEPLER、Rella,取得了比大多数深度学习基准更高的结果,因为它们利用了用户偏好的推理知识和物品的事实知识。但是,UserIP-Tuning 可以学习用户的内在画像并捕捉用户偏好,因此,UserIP-Tuning 更为优越。


表 3. 用户爱好与背景潜在特征检索
 模型组件  服装  电影
AUC  对数损失 AUC  对数损失
 用户 IP-调优无 VQ 0.6201 0.5577 0.7966 0.4636
 用户 IP 调优 0.6269 0.5126 0.8184 0.4566
 模型组件  游戏 Yelp
AUC  对数损失 AUC  对数损失
 用户 IP 调优(不含 VQ) 0.7340 0.8429 0.7277 0.5511
 用户 IP 调优 0.7393 0.7285 0.7314 0.5558

表 4. 从 DCN 到其他推荐模型的迁移性研究
 功能性  模型  服装  电影  游戏 Yelp
AUC  对数损失 AUC  对数损失 AUC  对数损失 AUC  对数损失
 训练代理  用户 IP-DCN 0.6269 0.5126 0.8184 0.4566 0.7393 0.7285 0.7314 0.5558
 传输至 PNN PNN 0.6088 0.5874 0.8154 0.4570 0.7178 0.7874 0.7287 0.5574
 用户 IP-PNN 0.6137 0.5383 0.8159 0.4566 0.7208 0.8076 0.7284 0.5578
 转移至 ONN ONN 0.6094 0.5903 0.8121 0.4598 0.7223 0.8658 0.7253 0.5598
 用户 IP-ONN 0.6140 0.5021 0.8098 0.4626 0.7289 0.8395 0.7246 0.5613
 转移到 DCNv2 DCNv2 0.6148 0.5848 0.8134 0.4643 0.7263 0.7991 0.7237 0.5704
 用户 IP-DCNv2 0.6263 0.5125 0.8180 0.4544 0.7324 0.8625 0.7308 0.5569


3.6. 可迁移性研究(RQ2)


这部分研究 UserIP-Tuning 的可迁移性。具体而言,我们探讨使用 UserIP-Tuning 训练的用户画像指标是否可以应用于其他下游模型 RecommenderRecommenderitalic_R italic_e italic_c italic_o italic_m italic_m italic_e italic_n italic_d italic_e italic_r [ \cdot ],并进一步检验我们模型的一般化迁移能力。


用户 IP-Tuning 中的用户画像指标被用于训练如 PNN(Qu 等., 2016)、ONN(Yang 等., 2020)和 DCNv2(Wang 等., 2021)等推荐器,并在四个数据集上进行实验。结果展示在表4中,其中“UserIP-Tuning-PNN”表示将 UserIP-Tuning 中的相应指标特征添加到“PNN”推荐器中,类似地,也评估了“UserIP-Tuning-ONN”和“UserIP-Tuning-DCNv2”的性能。从表中可以看出,结合 PNN(或 ONN、DCNv2)的 UserIP-Tuning 性能优于原始推荐器 PNN(或 ONN、DCNv2)。这一现象表明,用户潜在画像变量及相应指标可以增强多个推荐器的性能。此外,UserIP-Tuning 的泛化迁移能力在不同下游推荐器中得到了验证。


3.7. 超参数与消融研究(RQ3)


在本小节中,为了检验 UserIP-Tuning 的重要超参数,我们在四个数据集上系统地改变了 VQ 模块中的配置码本大小 KmsubscriptK_{m}italic_K start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT


结果证明,随着配置文件码本大小的增加,模型性能变差。如图5所示,随着爱好配置文件码本大小的扩展,AUC 降低,Logloss 增加。被划分到过度冗余簇的用户配置文件指标变得分散,无法捕捉到准确的用户配置文件特征。

Refer to caption

(a)服装模型性能
Refer to caption

(b) 电影模型性能
Refer to caption

(c) 游戏中的模型性能
Refer to caption

(d) Yelp 模型性能

图 5. 四个数据集上业余爱好者配置文件超参数的不同 VQ 码本大小。


此外,我们将用户背景配置文件码本大小 K2subscript2K_{2}italic_K start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 从 3 变化到 81,实验结果如图6所示。值得注意的是,当 K2subscript2K_{2}italic_K start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 等于 3 时,AUC 达到 73.931%,Logloss 降低至 0.72851。这些发现表明,当 K2subscript2K_{2}italic_K start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 较小时,UserIP-Tuning 能实现更优的性能。拥有较少的索引簇对学习用户画像和提高推荐准确性是有益的。此外,VQ 模块的有效性得到了验证,表3展示了消融研究的结果。当从 UserIP-Tuning 中移除 VQ 模块时,潜在画像变量 Ecep(θm)subscriptsuperscript\textit{E}_{cep}(\theta^{m})E start_POSTSUBSCRIPT italic_c italic_e italic_p end_POSTSUBSCRIPT ( italic_θ start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT ) 直接输入到下游推荐模型中,模型性能劣于 UserIP-Tuning。

Refer to caption
Refer to caption

图 6. 亚马逊视频游戏背景配置文件码本大小超参数。


3.8. 案例研究(RQ4)


3.8.1. 可解释性案例分析


本小节对用户潜在特征变量进行案例分析。我们随机选择一个用户的潜在特征变量,以检索在LLMs的语义空间中的聚类词及其相应的嵌入向量,结果总结于表5中。


表 5. 用户爱好与背景潜在特征检索
 用户 ID
业余潜在变量检索
255
[哥谭市;蝙蝠侠;光谱;毒蛇]
136
[凡人,魔法,峡谷,扩展包]
 用户标识
背景潜在变量检索
255  [XBOX; 英雄联盟;_WR; 射击]
136
[创世纪,荷马,僵尸,无论如何]


我们可以观察到,用户“255”喜欢如“蝙蝠侠”、“光谱”英雄和“哥谭”城市的超级英雄视频游戏。他的背景检索与凡人和魔法游戏背景相关。用户“136”喜欢 LOL: WR(英雄联盟:激斗峡谷)和射击游戏。此外,他的背景检索词显示,他使用由 Genesis 游戏系统制造的家庭视频游戏机,并玩僵尸或 AnyWay 冒险游戏。该现象考察了相应的推断用户画像在实践中是可解释和有用的。在附录3.8中,对用户潜在画像变量的案例研究进行了探讨,并显示我们的方法解决了文本噪声问题。


3.8.2. 文本噪声案例分析


我们在亚马逊视频游戏数据集中随机选择七名用户,以调查用户爱好档案变量与推断文本之间的文本噪声关系。在训练 UserIP-Tuning 之前,我们获取了随机生成的用户爱好档案向量。计算用户爱好档案向量与推断句子“该用户喜欢哥谭潜行射击动作游戏”中每个标记之间的注意力权重值。我们将这些权重归一化,范围从 0 到 1。在图7(a)中,我们观察到文本噪声“该用户”具有更高的权重值。相比之下,在左图中,由于软嵌入是随机初始化的,推断的用户档案在训练前的权重值较低。用户爱好档案与相应文本(“哥谭”、“潜行”、“射击”、“动作”)之间的关系不明显。经过软提示调优训练后,我们看到权重显著增加,如图7(b)中深蓝色所示,表明关系增强。训练后,文本噪声“该用户”的权重明显降低,呈现为浅蓝色。


此外,我们检查了用户背景资料中的文本噪声存在情况。同样地,我们从亚马逊视频游戏数据集中随机选取了六名用户,并计算了他们用户爱好资料变量与推断文本之间的注意力权重。在训练 UserIP-Tuning 之前,用户的背景资料变量是随机生成的。图7(c)所示的注意力权重主要集中在文本噪声上,尤其是像“该用户的消费水平是”这样的短语。然而,经过训练后,与文本噪声相关的权重减少,而与关键信息对应的权重显著增加,在可视化中呈现深蓝色。因此,文本噪声问题得到了极大缓解。

Refer to caption

(a)训练前业余爱好配置文件的文本噪声关系
Refer to caption

(b)训练后的业余爱好配置文件的文本噪声关系
Refer to caption

(c)训练前背景剖面的文本噪声关系
Refer to caption

(d) 训练后背景轮廓的文本噪声关系

图 7. 用户爱好和背景资料变量与游戏数据集中推理文本之间的文本噪音关系。


3.9. 工业应用研究(RQ5)


在本小节中,我们考察了 UserIP-Tuning 在从华为平台收集的大规模工业数据集上的模型性能和推理时间。该数据集记录了七天内的用户行为数据,包括用户交互行为(例如,用户点击的物品列表)、物品原始属性(例如,物品标题)和上下文特征(例如,时间)等。


表 6. 华为平台上的推理时间
Model  推理时间(秒) AUC
DCN 0.93 0.76394
KAR + DCN 4.78 0.78663
 用户 IP-调优 + DCN 1.21 0.79972


我们在表6中总结了华为离线实验的推理时间结果。从表6可以看出,我们的模型 DCN + UserIP-Tuning 达到了 1.21 秒/10000 个实例,比 DCN 的推理时间多 0.28 秒。基线 KAR 的推理时间远大于 DCN,高达 4.78 秒,几乎是 UserIP-Tuning 的 4 倍。因此,在工业场景中,它在推理能力和推荐性能方面是高效的。在附录3.9中,我们考察了 UserIP-Tuning 在华为上的模型性能,展示了其推理效率。


4. 相关工作


本节简要介绍了关于基于LLMs的用户画像推断在推荐系统中的先前研究。近年来,LLMs在上下文学习能力方面取得了显著成就。现有研究集中于利用LLMs隐式推断与任务相关的用户画像信息。


在情境学习领域,谢等人(2022)首先通过预训练的大语言模型(LLMs)设计了一个潜在的文档级用户配置文件变量,以预测连贯的下一个标记。大语言模型(LLMs)在预训练数据分布和任务特定数据分布为隐马尔可夫模型时隐式执行推理。闵等人(2022)设计了一种新的少样本学习方法,其中大语言模型(LLMs)经过元训练,并依赖于训练示例来恢复相关任务并进行预测推理。王等人(2023)提出了一种在大语言模型(LLMs)中估计潜在用户配置文件并从训练数据中选择最优示范的算法。研究人员构建了贝叶斯最优分类器来推断任务相关主题。陈等人(2022)研究了大语言模型(LLMs)中具有高突发性的偏斜 Zipfian 数据分布,以推断涌现的情境学习行为。李等人(2023c)证明大语言模型(LLMs)可以在具有独立同分布动态数据的传统线性回归任务上应用近最优算法。据我们所知,我们是第一个研究大语言模型(LLMs)在深度推荐系统中的推理的。


5. 结论


我们提出了一种基于LLMs的新型潜在剖面推断模型,UserIP-Tuning,通过寻找用户潜在剖面变量和轻量级索引来增强推荐性能和训练效率。考虑了潜在剖面与互动历史之间的因果关系,并设计了一种新颖的 UserIP 量化模块,对用户潜在剖面嵌入进行分类,输出用户最近的剖面索引,从而从这些嵌入中提取有用的协作信号。该方法解决了基于LLMs的推荐协作问题,消除了文本噪声和超出范围的结果。重要的是,UserIP-Tuning 的训练和推理能力得到了显著提升。我们在四个真实数据集上实证验证了 UserIP-Tuning 的有效性。未来,我们将探索更多的工业应用。

 参考文献

  • (1)
  •  鲍等人(2023)
    鲍克勤,张机制,张洋,王文杰,冯福利,何向楠。2023。TALLRec:一种有效且高效的调优框架,用于对齐大型语言模型与推荐系统。在第 17 届 ACM 推荐系统会议(RecSys ’23)论文集中。美国纽约州纽约市,1007–1014。https://doi.org/10.1145/3604915.3608857
  •  蔡等人(2023)
    蔡宇哲,毛绍光,吴文山,王泽华,梁耀波,葛涛,吴晨飞,尤王,宋婷,夏艳,等 2023。低代码llm:基于llms的可视化编程。arXiv 预印本 arXiv:2304.08103 (2023)。
  •  陈等(2022)
    陈斯迪芬妮,亚当·桑托罗,安德鲁·兰皮恩,王简,阿迪蒂亚·辛格,皮埃尔·里士满,詹姆斯·麦克莱兰,和菲利克斯·希尔。2022。数据分布特性驱动变换器中的涌现性上下文学习。《神经信息处理系统进展》35(2022),18878–18891。
  •  程等人(2020)
    程伟宇,沈艳艳,黄麟鹏。2020。自适应分解网络:学习自适应阶特征交互。在 AAAI 人工智能会议论文集,第 34 卷。3609–3616。
  •  德桑蒂斯等(2024)
    恩里科·德·桑蒂斯,亚历西奥·马蒂诺,安东内洛·里齐. 2024. 人类与机器智能:通过复杂系统理论评估自然语言生成模型. IEEE 模式分析与机器智能汇刊 (2024), 1–18. https://doi.org/10.1109/TPAMI.2024.3358168
  •  杜布瓦等人(2024)
    Yann Dubois, 陈雪晨李, Rohan Taori, 张天一, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy S Liang, 和 Tatsunori B Hashimoto. 2024. Alpacafarm: 一个用于从人类反馈中学习方法模拟框架. 神经信息处理系统进展 36 (2024).
  •  郭等人(2017)
    郭慧锋,唐瑞明,叶云明,李正国,何修强。2017。DeepFM:一种基于因子分解机的神经网络用于 CTR 预测(IJCAI’17)。AAAI 出版社,1725–1731。
  •  侯等(2023)
    侯宇鹏,张俊杰,林子涵,卢宏宇,谢若冰,Julian McAuley,赵 Wayne Xin。2023。大型语言模型是推荐系统的零样本排序器。arXiv 预印本 arXiv:2305.08845(2023)。
  •  黄等(2019)
    佟文黄,志奇张,俊林张. 2019. FiBiNET:结合特征重要性和双线性特征交互的点击率预测. 在第 13 届 ACM 推荐系统会议论文集中. 169–177.
  •  伊扎卡德等(2023)
    Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. 2023. Atlas:基于检索增强语言模型的少样本学习。 机器学习研究杂志 24, 251 (2023), 1–43. http://jmlr.org/papers/v24/23-0037.html
  •  胡安等人(2016)
    袁宇钦,庄勇,陈伟圣,和林智仁。2016。面向点击率预测的场感知分解机(RecSys '16)。纽约,NY,美国,43–50。 https://doi.org/10.1145/2959100.2959134

  • 肯顿和图塔诺娃(2019)

    雅各布·德夫林 明伟·张 肯顿和李 克里斯蒂娜·图特诺娃。2019 年。BERT:用于语言理解的深度双向变换器预训练。在 NAACL-HLT 会议录中。4171–4186。
  •  莱斯特等人(2021)
    布莱恩·莱斯特,拉米·阿尔-尔福,和诺亚·康斯坦特。2021 年。《规模之力:参数高效的提示调优》。载于《2021 年自然语言处理实证方法会议论文集》。第 3045-3059 页。
  •  李等(2023d)
    雷磊,张永锋,陈丽。2023d。个性化提示学习用于可解释推荐。《ACM 信息系统汇刊》41,4,文章 103(2023 年 3 月),26 页。https://doi.org/10.1145/3580488
  •  李等(2023a)
    李向阳,陈波,侯璐,唐瑞明。2023a。CTRL:连接表格和语言模型用于 CTR 预测。arXiv 预印本 arXiv:2306.02841(2023)。
  •  李等(2023b)
    李新航,陈崇,赵翔宇,张勇,邢春晓. 2023b. E4SRec:用于序列推荐的大型语言模型的优雅、有效、高效、可扩展解决方案. arXiv 预印本 arXiv:2312.02443 (2023).
  •  李等(2023c)
    李颖聪,M·埃姆鲁拉·伊尔迪兹,迪米特里斯·帕帕伊利奥普洛斯,萨梅特·奥伊马克。2023c。Transformers 作为算法:情境学习中的泛化与隐式模型选择。arXiv 预印本 arXiv:2301.07067(2023)。
  •  廖等人(2023)
    廖嘉怡,李思航,杨正一,吴健灿,袁彦成,王翔,何翔南。2023。LLaRA:将大型语言模型与序列推荐器对齐。arXiv 预印本 arXiv:2312.02445(2023)。
  •  林等 (2024)
    林江豪,单融,朱晨旭,杜蔻年花,陈波,全世刚,唐瑞明,于勇,和张伟男。2024。ReLLa:用于推荐中终身序列行为理解的检索增强大型语言模型。(2024)。
  •  卢等人(2021)
    陆万通,于艳涛,常永哲,王震,李晨辉,袁博。2021。一种双输入感知因子分解机用于点击率预测。在第 29 届国际人工智能联合会议论文集中。3139–3145。
  •  罗等(2023)
    罗思淳,何博伟,赵昊瀚,黄尹娜,周傲骏,李宗鹏,肖远章,詹明杰,宋林奇。2023。RecRanker:将指令调优的大语言模型作为 Top-k 推荐的排序器。arXiv 预印本 arXiv:2312.16018(2023)。
  •  Min 等人(2022)
    Sewon Min, Mike Lewis, Luke Zettlemoyer, 和 Hannaneh Hajishirzi. 2022. MetaICL: 在上下文中学习的学习. 在2022 年北美计算语言学协会会议: 人类语言技术论文集中, Marine Carpuat, Marie-Catherine de Marneffe, 和 Ivan Vladimir Meza Ruiz (编). 计算语言学协会, 美国 Seattle, 2791–2809. https://doi.org/10.18653/v1/2022.naacl-main.201
  •  曲等人(2016)
    曲艳如,蔡瀚,任侃,张 Weinan,于勇,温颖,王军。2016。基于产品的神经网络用于用户响应预测。在 2016 IEEE 第 16 届国际数据挖掘会议(ICDM)。IEEE,1149–1154。
  •  拉杰普特等(2023)
    沙尚克·拉杰普特,尼基尔·梅塔,阿尼玛·辛格,拉古南丹·H·凯沙万,特鲁恩·武,卢卡斯·赫尔特,洪立禅,易泰,范文·Q·陈,乔纳·萨莫斯特,马切伊·库拉,埃德·H·奇,和马赫斯瓦尔南·萨蒂亚莫 orthy。2023 年。生成检索推荐系统。(2023 年)。arXiv:2305.05065 [cs.IR]
  •  宋等人(2019)
    宋伟平,石晨策,肖志平,段志坚,徐叶文,张明,唐健。2019。Autoint:通过自注意力神经网络自动特征交互学习。在第 28 届 ACM 国际信息与知识管理会议论文集中。1161–1170。
  •  谭等人(2023)
    谭一鸣,闵德海,李宇,李文博,胡楠,陈永瑞,齐桂林。2023。评估 ChatGPT 作为回答复杂问题问答系统的性能。arXiv 预印本 arXiv:2303.07992(2023)。
  •  田 orii 等人(2023)
    罗翰·陶里,伊山·古尔拉吉尼,张天一,扬·杜布瓦,李学晨,卡洛斯·盖斯汀,珀西·梁,和田 tsunami B 哈希莫托。2023。斯坦福羊驼:一个遵循指令的羊驼模型(2023)。网址 https://github. com/tatsu-lab/stanford_alpaca (2023)。
  •  图尔万等人(2023a)
    雨果·图夫龙,蒂博·拉夫里尔,高蒂尔·伊扎卡德,格扎维埃·马蒂内,玛丽-安娜·拉绍,蒂莫泰·拉克鲁瓦,巴普蒂斯特·罗齐埃,纳曼·戈亚尔,埃里克·汉布罗,费萨尔·阿扎尔等,2023a。Llama:开放且高效的基础语言模型。arXiv 预印本 arXiv:2302.13971(2023)。
  •  图尔万等人(2023b)
    雨果·图尔冯,路易斯·马丁,凯文·斯通,彼得·阿尔伯特,阿姆贾德·阿尔马希里,亚斯明·巴巴伊,尼古拉伊·巴什利科夫,苏米亚·巴特拉,普拉吉瓦尔·巴尔加瓦,舒蒂·博萨莱,等 2023b。Llama 2:开放基础和微调聊天模型。arXiv 预印本 arXiv:2307.09288 (2023)。

  • 范登奥尔德等(2017)

    Aaron van den Oord, Oriol Vinyals, 和 Koray Kavukcuoglu. 2017. 神经离散表示学习. 在第 31 届国际神经网络信息处理系统会议(NIPS’17)论文集中. 纽约州红钩市, 美国, 6309–6318.
  •  王等(2017)
    王若曦,傅斌,傅刚,王明亮。2017。深度与交叉网络用于广告点击预测。在《ADKDD’17 会议录》(ADKDD’17)中。美国纽约州纽约市,第 12 篇文章,7 页。https://doi.org/10.1145/3124749.3124754
  •  王等(2021)
    王若溪,拉凯什·希瓦纳,德里克·程,萨加尔·贾因,林东,洪立展,和艾德·奇。2021。DCN v2:改进的深度与交叉网络及面向网络规模学习排序系统的实用经验。在 2021 年网络会议论文集中。1785–1797。
  •  王等(2023)
    王新义,朱万荣,和王威廉。2023。大型语言模型隐含主题模型:解释并寻找上下文学习中的良好示范。arXiv 预印本 arXiv:2301.11916(2023)。
  •  魏等(2022)
    魏 Jason,王 学志,Dale Schuurmans,Maarten Bosma,夏 非,Ed Chi,Quoc V Le,周 Denny,等 2022。思维链提示激发大型语言模型中的推理。神经信息处理系统进展 35(2022),24824–24837。
  •  吴等(2020)
    吴乐,杨永辉,张坤,洪日昌,傅延杰,王猛. 2020. 联合物品推荐与属性推理:一种自适应图卷积网络方法. 在第 43 届国际 ACM SIGIR 信息检索研究与发展会议论文集中. 679–688.
  •  习等(2023)
    许云佳,刘伟文,林江豪,朱杰明,陈波,唐瑞明,张伟南,张锐,余勇。2023。迈向知识增强的开放世界推荐:基于大型语言模型。arXiv 预印本 arXiv:2306.10933(2023)。
  •  肖等人(2017)
    肖骏,叶昊,何向南,张汉旺,吴飞,蔡达森。2017。注意力分解机:通过注意力网络学习特征交互的权重。在第 26 届国际人工智能联合会议(IJCAI’17)论文集中。3119–3125。
  •  谢等人(2022)
    桑·迈克尔·谢,阿迪蒂·拉古纳坦,珀西·梁,和马腾宇。2022 年。《将情境内学习解释为隐式贝叶斯推理》。在国际学习表征会议上发表。
  •  颜等人(2014)
    凌雁,李吴军,薛贵荣,韩丁毅。2014。用于展示广告中网络规模点击率预测的耦合组套索方法。在国际机器学习会议上。PMLR,802–810。
  •  杨等(2020)
    易扬,白乐徐,沈少峰,沈福荣,赵健。2020。面向用户响应预测的运维感知神经网络。《神经网络》121(2020),161–168。
  •  张等(2023)
    杨张, 冯福利, 张极致, 鲍克勤, 王启凡, 何湘南. 2023. CoLLM: 将协作嵌入集成到大型语言模型中以用于推荐. arXiv 预印本 arXiv:2310.19488 (2023).
  •  郑等(2023)
    郑博文,侯宇鹏,卢宏宇,陈宇,赵 Wayne Xin,温继荣。2023。通过整合协作语义适应大型语言模型以用于推荐。arXiv 预印本 arXiv:2311.09049(2023)。
  •  周等(2022)
    周亚东,丁志豪,刘小明,沈超,童玲玲,和管小红。2022。Infer-AVAE:基于对抗变分自编码器的属性推理模型。《神经计算》483(2022),105–115。


附录 A 附录


在本节中,我们详细阐述了关于贝叶斯LLMs对概念潜在变量的理论分析。


A.1. 理论分析


我们首先假设预训练的LLMs数据分布 PLLMsubscriptP_{LLM}italic_P start_POSTSUBSCRIPT italic_L italic_L italic_M end_POSTSUBSCRIPT 适当地近似了假设的数据分布 PPitalic_P 。在添加概念标记后,提示变成了用户信息 xxitalic_x 、概念标记 θ\thetaitalic_θ 和任务描述 DtasksubscriptD_{task}italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT 的序列。具体来说,我们在用户信息 xxitalic_x 之后连接概念标记 θ\thetaitalic_θ

[LM,Dtask]=[x1,θ1,odel,x2,θ2,odel,,xM,θM,odel,Dtask]superscriptsubscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘superscript𝑥1superscript𝜃1superscript𝑜𝑑𝑒𝑙superscript𝑥2superscript𝜃2superscript𝑜𝑑𝑒𝑙superscript𝑥𝑀superscript𝜃𝑀superscript𝑜𝑑𝑒𝑙subscript𝐷𝑡𝑎𝑠𝑘[L_{M}^{{}^{\prime}},D_{task}]=[x^{1},\theta^{1},o^{del},x^{2},\theta^{2},o^{% del},...,x^{M},\theta^{M},o^{del},D_{task}][ italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT start_POSTSUPERSCRIPT start_FLOATSUPERSCRIPT ′ end_FLOATSUPERSCRIPT end_POSTSUPERSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT ] = [ italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_o start_POSTSUPERSCRIPT italic_d italic_e italic_l end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , italic_o start_POSTSUPERSCRIPT italic_d italic_e italic_l end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_o start_POSTSUPERSCRIPT italic_d italic_e italic_l end_POSTSUPERSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT ]


命题 2.2。随着概念类别数 MMitalic_M 的增加,预测器 argmaxy𝒴PLLM(Y|X1,X2,,XM,θ1,θ2,,θM)subscriptsubscriptconditionalsuperscript1superscript2superscriptsuperscript1superscript2superscript\arg\max_{y\in\mathcal{Y}}{P_{LLM}(Y|X^{1},X^{2},...,X^{M},\theta^{1},\theta^{% 2},...,\theta^{M})}roman_arg roman_max start_POSTSUBSCRIPT italic_y ∈ caligraphic_Y end_POSTSUBSCRIPT italic_P start_POSTSUBSCRIPT italic_L italic_L italic_M end_POSTSUBSCRIPT ( italic_Y | italic_X start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_X start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_X start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_θ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , … , italic_θ start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ) 是贝叶斯最优预测器。

 证明。
P(Y=y|LM,Dtask)𝑃𝑌conditional𝑦subscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘\displaystyle P(Y=y|L_{M},D_{task})italic_P ( italic_Y = italic_y | italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT )
=ΘP(Y=y|LM,Dtask,θ)P(θ|LM,Dtask)𝑑θabsentsubscriptΘ𝑃𝑌conditional𝑦subscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘𝜃𝑃conditional𝜃subscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘differential-d𝜃\displaystyle=\int_{\Theta}P(Y=y|L_{M},D_{task},\theta)P(\theta|L_{M},D_{task}% )d\theta= ∫ start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT italic_P ( italic_Y = italic_y | italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT , italic_θ ) italic_P ( italic_θ | italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT ) italic_d italic_θ
ΘP(Y=y|LM,Dtask,θ)P(LM,Dtask|θ)P(θ)𝑑θproportional-toabsentsubscriptΘ𝑃𝑌conditional𝑦subscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘𝜃𝑃subscript𝐿𝑀conditionalsubscript𝐷𝑡𝑎𝑠𝑘𝜃𝑃𝜃differential-d𝜃\displaystyle\propto\int_{\Theta}P(Y=y|L_{M},D_{task},\theta)P(L_{M},D_{task}|% \theta)P(\theta)d\theta∝ ∫ start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT italic_P ( italic_Y = italic_y | italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT , italic_θ ) italic_P ( italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT | italic_θ ) italic_P ( italic_θ ) italic_d italic_θ
(Bayesian rule, cancel the constant 1P(LM,Dtask))(Bayesian rule, cancel the constant 1𝑃subscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘)\displaystyle\text{(Bayesian rule, cancel the constant }\frac{1}{P(L_{M},D_{% task})}\text{) }(Bayesian rule, cancel the constant divide start_ARG 1 end_ARG start_ARG italic_P ( italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT ) end_ARG )
ΘP(Y=y|LM,Dtask,θ)P(LM,Dtask|θ)P(LM,Dtask|θ)P(θ)𝑑θproportional-toabsentsubscriptΘ𝑃𝑌conditional𝑦subscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘𝜃𝑃subscript𝐿𝑀conditionalsubscript𝐷𝑡𝑎𝑠𝑘𝜃𝑃subscript𝐿𝑀conditionalsubscript𝐷𝑡𝑎𝑠𝑘superscript𝜃𝑃𝜃differential-d𝜃\displaystyle\propto\int_{\Theta}P(Y=y|L_{M},D_{task},\theta)\frac{P(L_{M},D_{% task}|\theta)}{P(L_{M},D_{task}|\theta^{*})}P(\theta)d\theta∝ ∫ start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT italic_P ( italic_Y = italic_y | italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT , italic_θ ) divide start_ARG italic_P ( italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT | italic_θ ) end_ARG start_ARG italic_P ( italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT | italic_θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ) end_ARG italic_P ( italic_θ ) italic_d italic_θ
(Law of total prob,Markov property,divide by a constant P(LM,Dtask|θ))(Law of total prob,Markov property,divide by a constant 𝑃subscript𝐿𝑀conditionalsubscript𝐷𝑡𝑎𝑠𝑘superscript𝜃)\displaystyle\text{(Law of total prob,Markov property,divide by a constant }P(% L_{M},D_{task}|\theta^{*})\text{) }(Law of total prob,Markov property,divide by a constant italic_P ( italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT | italic_θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ) )
=ΘP(Y=y|LM,Dtask,θ)exp(MrM(θ))P(θ)𝑑θabsentsubscriptΘ𝑃𝑌conditional𝑦subscript𝐿𝑀subscript𝐷𝑡𝑎𝑠𝑘𝜃𝑒𝑥𝑝𝑀subscript𝑟𝑀𝜃𝑃𝜃differential-d𝜃\displaystyle=\int_{\Theta}P(Y=y|L_{M},D_{task},\theta)exp(M\cdot r_{M}(\theta% ))P(\theta)d\theta= ∫ start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT italic_P ( italic_Y = italic_y | italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT , italic_θ ) italic_e italic_x italic_p ( italic_M ⋅ italic_r start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ( italic_θ ) ) italic_P ( italic_θ ) italic_d italic_θ


rM(θ)=1Mlog(P(LM,Dtask|θ)P(LM,Dtask|θ))subscript1subscriptconditionalsubscriptsubscriptconditionalsubscriptsuperscriptr_{M}(\theta)=\frac{1}{M}log(\frac{P(L_{M},D_{task}|\theta)}{P(L_{M},D_{task}|% \theta^{*})})italic_r start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ( italic_θ ) = divide start_ARG 1 end_ARG start_ARG italic_M end_ARG italic_l italic_o italic_g ( divide start_ARG italic_P ( italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT | italic_θ ) end_ARG start_ARG italic_P ( italic_L start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_t italic_a italic_s italic_k end_POSTSUBSCRIPT | italic_θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ) end_ARG ) 。根据(谢等., 2022),对于所有概念 θ\thetaitalic_θ ,除了最优提示概念 θsuperscript\theta^{*}italic_θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ,其中 exp(MrM(θ))=1subscriptsuperscript1exp(M\cdot r_{M}(\theta^{*}))=1italic_e italic_x italic_p ( italic_M ⋅ italic_r start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ( italic_θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ) ) = 1 。因此,积分中唯一非零的可能性是当 θ=θsuperscript\theta=\theta^{*}italic_θ = italic_θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ,从而提示概念作为贝叶斯推理的结果被“选择”。