2024_09_07_585b666a57b2ecb6559bg

Loopy: 通过长期运动依赖性驯化音频驱动的肖像头像

江建文 , 梁超 , 杨佳琪 , 林高杰 , 钟天云 , 郑彦博
字节跳动，浙江大学{jianwen.alan,liangchao.0412,yjq850207131}@gmail.comzhongtianyun@zju.edu.cnhttps://loopyavatar.github.io/

摘要

随着基于扩散的视频生成技术的引入，音频条件的人类视频生成最近在运动的自然性和肖像细节的合成方面取得了显著突破。由于音频信号在驱动人类运动方面的控制有限，现有方法通常添加辅助空间信号以稳定运动，这可能会影响运动的自然性和自由度。本文提出了一种端到端的仅音频条件视频扩散模型，名为 Loopy。具体而言，我们设计了一个跨片段和片段内的时间模块以及一个音频到潜在空间的模块，使模型能够利用数据中的长期运动信息来学习自然运动模式，并改善音频与肖像运动的相关性。这种方法消除了现有方法在推理过程中用于约束运动的手动指定空间运动模板的需求。大量实验表明，Loopy 在各种场景中优于最近的音频驱动肖像扩散模型，提供了更逼真和高质量的结果。

1 引言

由于 GAN 和扩散模型在视频合成领域的快速进展（Bar-Tal 等，2024 年；Blattmann 等，2023a b；Guo 等，2023 年；Zhou 等，2022 年；Gupta 等，2023 年；Wang 等，2023 年；Ho 等，2022 年；Brooks 等，2022 年；Wang 等，2020 年；Singer 等，2022 年；Li 等，2018 年；Villegas 等，2022 年），人类视频合成（Siarohin 等，2019 年；2021 年；Xu 等，2024b；Hu，2024 年；Corona 等，2024 年）在质量上逐渐接近实用性阈值，近年来引起了广泛关注。其中，零-shot 音频驱动的肖像合成自 2020 年以来研究激增（He 等，2023 年；Tian 等，2024 年；Xu 等，2024a；Wang 等，2024 年；Chen 等，2024 年；Xu 等，2024b；Stypulkowski 等，2024 年），因为它能够以最低的进入门槛生成对话视频。从去年开始，引入了扩散模型技术，端到端音频驱动模型（Tian 等，2024 年；Xu 等，2024a；Chen 等，2024 年）相比现有方法展示了更生动的合成结果。

然而，由于音频与肖像运动之间的弱相关性，端到端音频驱动的方法通常引入与空间运动相关的额外条件，以确保合成视频的时间稳定性。诸如面部定位器和速度层（Tian et al., 2024, Xu et al. 2024a, Chen et al. 2024）等条件限制了肖像运动的范围和速度，可能会降低最终输出的表现力，如图 1 所示。虽然引入预设运动模板可能缓解此问题，但它也带来了与模板选择、音频-运动同步和重复模板运动相关的复杂性。从模型的角度来看，这些限制也妨碍了视频扩散模型在生成生动运动方面的全部潜力。本文旨在通过提出一种仅基于音频的条件肖像来解决这一问题。

图 1：与现有方法的视觉比较。现有方法在生成自然动作方面存在困难；与参考图像相比，它们的动作、姿势和表情往往与参考图像相似或由于辅助空间条件而几乎保持静止。相比之下，Loopy 有效地仅从音频生成自然的人形动作，包括详细的头部动作和面部表情。视频结果已在补充材料中提供。

扩散模型，使模型能够从数据中学习自然运动模式，而无需空间模板。

我们首先尝试去除面部定位器和速度层等结构。这导致合成视频中出现更频繁的不良运动模式，例如突然的时间抖动、帧损坏、自回归降级增加和不自然的时间细节，从而导致整体质量下降。在实际操作中，在当前的基于扩散的框架中，影响运动的条件不仅包括音频（音频以多对多的方式映射到运动模式，难以完全定义运动），还包括运动帧。运动帧提供来自前一个片段的外观信息，强烈影响运动生成。然而，当前的方法通常基于来自上一个片段的 4 个运动帧和来自当前片段的十多个目标帧进行生成。在典型的 25 帧每秒下，这总共覆盖约 0.5 秒，其中运动帧仅覆盖 0.2 秒。这种短暂的运动帧导致模型主要从上一个片段提取外观信息，而不是时间运动信息，例如运动风格。例如，在眨眼的情况下，0。前 2 秒的信息不足以让模型判断是否应该眨眼（它无法知道之前是否已经眨过眼，这使得眨眼成为一种概率事件，可能导致生成的视频中长时间没有眨眼）。当音频和运动帧难以确定运动风格时，它表现出随机性，需要额外的空间条件指导，例如人脸框和运动速度。我们尝试增加运动帧的长度，发现这种方法在一定程度上可以生成更大和更灵活的运动，尽管这可能导致不稳定性增加。这个观察提醒我们，以适当的方式增加时间感受野可能有助于更有效地捕捉运动模式，并有助于生成自然的运动。此外，当前的方法通过交叉注意力将音频特征直接注入扩散模型，这使得模型难以学习音频与肖像运动之间的关系，而是建模音频与所有视频像素之间的关系。这个现象在 Hallo Xu 等（2024a）的工作中也有提到。音频与肖像之间的弱相关性也增加了生成随机和不满意动作的可能性，使得生成与音频良好对应的自然运动变得困难。

基于上述观察和考虑，我们提出了 Loopy，一种端到端的无模板音频条件扩散模型，用于肖像视频生成，利用长期运动依赖性生成生动的肖像视频。具体而言：在时间方面：我们设计了剪辑间和剪辑内的时间模块。运动帧通过一个单独的时间层建模，以捕捉剪辑间的时间关系，而原始时间模块则专注于剪辑内的时间建模。此外，我们在剪辑内层引入了一个时间段模块，将感受野扩展到超过 100 帧（覆盖大约 5 秒，速度为原始的

倍）。在音频方面：我们引入了音频到运动潜变量模块，该模块将音频和面部运动相关特征（地标、头部运动方差、表情运动方差）转换为基于共享特征空间的运动潜变量。这些潜变量被插入。

作为条件输入到去噪网络。在测试过程中，仅使用音频生成运动潜变量。这种方法允许弱相关的音频利用强相关的运动条件，从而增强音频与肖像运动之间关系的建模。大量实验验证了我们的设计有效提高了运动的自然性和视频合成的鲁棒性。总之，我们的贡献包括：

我们提出了一种无模板的音频条件扩散模型用于肖像视频生成，具有跨片段和片段内的时间模块，利用长期运动依赖关系来学习自然运动模式。此外，音频到潜变量模块通过在训练期间使用强相关条件来增强音频与肖像运动之间的关联。

我们在公共数据集上验证了我们方法的有效性，并评估了模型在各种应用场景（包括多种类型的图像和音频）中的能力，证明我们的模型相比现有方法实现了更生动和稳定的合成结果。

音频驱动的肖像视频生成近年来引起了广泛关注，许多作品推动了这一领域的发展。这些方法可以根据其视频合成技术分为基于 GAN 的方法和基于扩散的方法。

基于 GAN 的方法（Zhou 等，2020 年；Prajwal 等，2020 年；Zhang 等，2023b 年；Liang 等，2022 年）通常由两个关键组件组成：音频到运动模型和运动到视频模型。这些模型通常是独立实现的。例如，MakeItTalk（Zhou 等，2020 年）使用 LSTM 模块预测与音频对应的地标坐标，然后基于扭曲的 GAN 模型将地标信号转换为视频图像。SadTalker（Zhang 等，2023b 年）利用现有的 FaceVid2Vid（Wang 等，2021 年）方法作为图像合成器，采用 ExpNet 和 PoseVAE 将音频特征转换为 FaceVid2Vid 所需的输入，从而完成音频到视频的生成。随着扩散技术的引入，一些方法已经使用扩散模型实现了音频到运动模块，同时保留了运动到视频模块的独立实现。例如，GAIA（He 等，2023 年）使用 VAE 将运动表示为运动潜变量，并实现了运动潜变量到视频生成模型。此外，它设计了一种扩散模型，以实现音频到运动潜变量的生成，从而实现音频到视频的生成。DreamTalk（马等，2023）、Dream-Talk（张等，2023a）和 VASA-1（徐等，2024b）提出了类似的想法，分别使用 PIRender（任等，2021）、FaceVid2Vid（王等，2021）和 MegaPortrait（德罗比舍夫等，2022）作为它们的运动到视频模型，并设计音频到运动的表示模型，以完成音频到肖像视频的生成过程。

除了上述类型，EMO Portrait（Tian et al. 2024）使用单一扩散模型实现音频到肖像视频的生成，取代了音频到运动模块和运动到视频模型的两阶段独立设计。Hallo（Xu et al. 2024a）、EchoMimic（Chen et al. 2024）和 VExpress（Wang et al. 2024）在类似的音频到视频扩散框架基础上改进了他们的音频到视频建模。尽管这些端到端的方法可以生成生动的肖像视频，但它们需要引入空间条件模块，如面部定位器和速度层，以约束头部运动的稳定性，这限制了运动模型在实际应用中的多样性，并阻碍了扩散模型的全部潜力。

3 方法

在本节中，我们将介绍我们的方法 Loopy。首先，我们将提供框架的概述，包括 Loopy 的输入、输出和关键组件。其次，我们将重点介绍时间间隔模块和时间内模块的设计，包括时间段模块。第三，我们将详细说明音频条件模块的实现。最后，我们将描述 Loopy 在训练和测试过程中的实现细节。

图 2：Loopy 的框架。它去除了现有方法中常用的人脸定位器和速度层模块。相反，它通过提出的片段间/片段内时间层和音频到潜在模块，实现了灵活自然的运动生成。

3.1 框架

我们的方法基于稳定扩散（SD）并使用其初始化权重。SD 是一个基于潜在扩散模型（LDM）（Rombach 等，2022）的文本到图像扩散模型。它采用预训练的 VQ-VAE（Kingma，2013；Van Den Oord 等，2017）

将图像从像素空间转换到潜在空间。在训练过程中，图像首先被转换为潜在表示，即

。然后根据去噪扩散概率模型（DDPM）（Ho 等，2020）在潜在空间中向潜在表示添加高斯噪声

，持续

步，最终得到一个噪声潜在表示

。去噪网络以

作为输入来预测

。训练目标可以表述如下：

其中

代表去噪网络，包括与条件相关的注意力模块，这是 Loopy 旨在改进的主要部分。

代表 SD 中的文本条件嵌入，而在 Loopy 中，它包括音频、运动帧和其他影响最终生成的附加信息。在测试过程中，最终图像是通过从高斯噪声中采样并基于 DDIM（Song et al., 2020）或 DDPM 去除噪声获得的。

如图 2 所示，在 Loopy 中，去噪网络的输入包括噪声潜变量，即 VQ-VAE 编码的图像潜变量

。与原始 SD 不同，这里的输入是一系列表示视频片段的图像。输入还包括参考潜变量

（通过 VQ-VAE 编码的参考图像潜变量）、音频嵌入

（当前片段的音频特征）、运动帧

（来自前面片段的 M 帧序列的图像潜变量）和时间步

。在训练过程中，还涉及额外的面部运动相关特征：

（当前片段的面部关键点序列）、

（当前片段的头部运动方差）和

（当前片段的表情方差）。输出是预测的噪声

。去噪网络采用双 U-Net 架构（

；Zhu 等，2023）。该架构包括一个额外的参考网络模块，该模块复制了原始 SD U-Net 结构，但使用参考潜变量

作为输入。参考网络与去噪 U-Net 并行运行。在去噪 U-Net 的空间注意力层计算中，来自参考网络相应位置的键和值特征与去噪 U-Net 的特征在令牌维度上进行拼接，然后再进行注意力模块的计算。这个设计使得去噪 U-Net 能够有效地结合来自参考网络的参考图像特征。

此外，参考网络还将运动帧潜变量

作为输入进行特征提取，从而允许在后续的时间注意力计算中利用这些特征。

3.2 交互/内部剪辑时间层设计

在这里，我们介绍了提议的跨剪辑/内部剪辑时间模块的设计。与现有方法（Tian et al. 2024, Xu et al., 2024a, Chen et al., 2024, Wang et al., 2024）通过单一时间层同时处理运动帧潜变量和噪声潜变量特征不同，Loopy 采用了两个时间注意层：跨剪辑时间层和内部剪辑时间层。跨剪辑时间层首先处理运动帧潜变量和噪声潜变量之间的跨剪辑时间关系，而内部剪辑时间层则专注于当前剪辑中噪声潜变量的时间关系。

首先，我们引入了片段间时间层，最初忽略图 2 中的时间段模块。我们首先收集来自前一个片段的

图像潜变量，称为运动帧潜变量

。与

类似，这些潜变量通过参考网络逐帧处理以提取特征。在每个残差块中，从参考网络获得的特征

与来自去噪 U-Net 的特征

在时间维度上进行拼接。为了区分潜变量的类型，我们添加了可学习的时间嵌入。随后，在拼接的标记上沿时间维度计算自注意力，称为时间注意力。片段内时间层的不同之处在于其输入不包括来自运动帧潜变量的特征，它仅处理当前片段的噪声潜变量的特征。通过分离这两个时间层，模型可以更好地处理跨片段时间关系中不同语义时间特征的聚合。

由于剪辑间时间层的独立设计，Loopy 更好地建模剪辑之间的运动关系。为了增强这一能力，我们在

进入参考网络之前引入了时间段模块。该模块不仅扩展了剪辑间时间层覆盖的时间范围，还考虑了由于不同剪辑与当前剪辑的距离变化而导致的信息变化，如图 3 所示。时间段模块将原始运动帧划分为多个段，并从每个段中提取代表性的运动帧以抽象该段。基于这些抽象的运动帧，我们重新组合它们以

图 3：时间段模块和片段间/片段内时间层的示意图。前者使我们能够扩展运动帧以覆盖超过 100 帧，而后者则使得建模长期运动依赖成为可能。

获取运动帧潜变量以进行后续计算。对于分割过程，我们定义了两个超参数：步幅

和扩展比例

。步幅

表示每个段中的抽象运动帧数量，而扩展比例

用于计算每个段中原始运动帧的长度。第

个段中的帧数，从当前剪辑最近到最远，给定为

。例如，使用步幅

和扩展比例

，第一个段将包含 4 帧，第二个段将包含 8 帧，第三个段将包含 16 帧。对于分割后的抽象过程，我们默认在每个段内进行均匀采样。在实验部分，我们研究不同的分割参数和抽象方法。由于分割和抽象直接影响长期运动依赖的学习，不同的方法对结果有显著影响。时间段模块的输出

可以定义为：

表示从序列

计算得出的输出的

-th 元素的平均值。

时间段模块快速扩展输入到片段间时间层的运动帧的时间覆盖，同时保持可接受的计算复杂性。对于较近的帧，较低的扩展率保留更多细节，而对于较远的帧，较高的扩展率覆盖更长的持续时间。这种方法帮助模型更好地捕捉来自长期信息的运动风格，并生成时间上自然的运动，而无需空间模板。

3.3 音频条件模块

对于音频条件，我们首先使用 wav2vec（Baevski 等，2020；Schneider 等，2019）进行音频特征提取。按照 EMO 中的方法，我们将 wav2vec 网络每一层的隐藏状态进行拼接，以获得多尺度音频特征。对于每个视频帧，我们将前两个和后两个帧的音频特征进行拼接，从而得到一个 5 帧音频特征作为当前帧的音频嵌入

。最初，在每个残差块中，我们使用带噪声的潜变量作为查询，音频嵌入

作为键和值，计算一个关注的音频特征。然后将这个关注的音频特征添加到从自注意力获得的带噪声的潜变量特征中，得到一个新的带噪声的潜变量特征。这提供了一个初步的音频条件。

此外，如图 4 所示，我们引入了音频到潜在空间模块。该模块将与肖像运动具有强相关性和弱相关性的条件（例如音频）映射到共享的运动潜在空间。这些映射的条件作为最终的条件特征，从而增强了基于运动潜在的音频与肖像运动之间关系的建模。具体而言，我们保持一组可学习的嵌入。

图 4：音频到潜在特征模块。对于每个输入条件，我们使用全连接（FC）层将其映射到查询特征，同时可学习的嵌入作为注意力计算的键和值特征，以基于可学习的嵌入获得新的特征。这些新的特征被称为运动潜在特征，替代后续计算中的输入条件。这些运动潜在特征随后通过 FC 层进行维度变换，并与时间步嵌入特征相加，以进行后续网络计算。在训练期间，我们以相等的概率从音频嵌入和与面部运动相关的特征（如地标、面部绝对运动方差和面部表情运动方差）中抽样输入条件供音频到潜在特征模块使用。在测试期间，我们仅输入音频以生成运动潜在特征。通过利用与肖像运动强相关的特征，模型利用可学习的嵌入来控制运动。因此，将音频嵌入转换为运动潜在特征也可以更直接地影响肖像运动。

3.4 培训策略

条件掩码和丢弃。在 Loopy 框架中，涉及多种条件，包括参考图像

、音频特征

、前一帧运动帧

和表示音频与面部运动条件的运动潜变量

。由于这些条件中包含的信息具有重叠性，为了更好地学习每个条件特有的独特信息，我们在训练过程中对条件使用了不同的掩码策略。在训练期间，

和运动潜变量以

的概率被掩码为全零特征。对于

和

，我们设计了特定的丢弃和掩码策略，因为它们之间存在冲突关系。

还提供外观信息，并且与当前片段相比更接近

，这导致模型在推理时严重依赖运动帧而不是参考图像。这可能导致长视频序列中的颜色偏移和伪影。为了解决这个问题，

有

的概率被丢弃，这意味着去噪

在自注意力计算期间不会与参考网络的特征连接。当

被丢弃时，运动帧也会被丢弃，这意味着去噪

在时间上不会从参考网络连接特征

注意力计算。此外，运动帧有独立的

概率被屏蔽为全零特征。

多阶段训练。根据 AnimateAnyone（Hu，2024）和 EMO（Tian 等，2024），我们采用了两阶段的训练过程。在第一阶段，模型在没有时间层和音频条件模块的情况下进行训练。模型的输入是目标单帧图像和参考图像潜变量的噪声潜变量，重点关注图像级姿态变化任务。完成第一阶段后，我们进入第二阶段，此时模型使用第一阶段的参考网络和去噪 U-Net 进行初始化。然后，我们添加了跨剪辑/内部剪辑的时间层和音频条件模块进行全面训练，以获得最终模型。

推理。在推理过程中，我们使用多种条件进行无类指导（Ho & Salimans, 2022）。具体来说，我们进行三次推理运行，区别在于是否省略某些条件。最终噪声

的计算如下：

其中

包含所有条件

，但将掩码

设置为全零特征，而

将掩码

设置为全零特征，并去除去噪 U-Net 自注意力中的参考网络特征的连接。这种方法使我们能够控制模型的最终输出，以便遵循参考图像并与音频对齐。音频比例设置为 5，参考比例设置为 3。我们使用 DDIM 采样，进行 25 个去噪步骤以完成推理。

3.5 实验

数据集。对于训练数据，我们从互联网收集了对话头视频数据，排除了低唇同步分数、过度头部运动、极端旋转或不完整头部曝光的视频。这导致我们获得了 160 小时的清理过的训练数据。此外，我们还用公共数据集如 HDTF（Zhang et al., 2021）补充了训练数据。对于测试集，我们从 CelebV-HQ（Zhu et al. 2022）（一个包含混合场景的公共高质量名人视频数据集）和 RAVDESS（Kaggle）（一个包含丰富情感的公共高清室内对话场景数据集）随机抽取了 100 个视频。为了测试基于扩散模型的泛化能力，我们还收集了 20 张肖像测试图像，包括真实人物、动漫、侧脸和不同材料的人形工艺品，以及 20 个音频片段，包括演讲、唱歌、说唱和情感丰富的演讲。我们将这个测试集称为开放集测试集。

实现细节。我们使用 24 个 Nvidia A100 GPU 训练我们的模型，批量大小为 24，使用 AdamW（Loshchilov & Hutter，2017）优化器，学习率为 1e-5。生成的视频长度设置为 12 帧，运动帧长度设置为 124 帧，表示当前 12 帧视频的前 124 帧。经过时间压缩，这被压缩为 20 个运动帧潜变量。在训练过程中，参考图像是从视频片段中的一帧随机选择的。为了训练音频到运动模块所需的面部运动信息，我们使用 DWPose（Yang 等，2023）检测当前 12 帧的面部关键点。鼻尖在这 12 帧中的绝对位置方差被用作绝对头部运动方差。面部关键点（37 个关键点）上半部分相对于鼻尖的位移方差被用作表情方差。训练视频以 25 帧每秒均匀处理，并裁剪为

肖像视频。

指标。我们使用 IQA 指标（Wu et al., 2023）评估图像质量，使用 VBench 的平滑指标（Huang et al., 2024）评估视频运动，并使用 SyncC 和 SyncD（Prajwal et al., 2020）评估音视频同步。对于 CelebvHQ 和 RAVDESS 测试集，这些测试集有相应的真实视频，我们还将计算 FVD（Unterthiner et al., 2019）、E-FID（Tian et al., 2024）和 FID 指标进行比较。此外，为了比较肖像的全局运动（记作 Glo）和动态表情（记作 Exp），我们基于鼻子和上半脸的关键点计算了方差值，特别排除了嘴部区域。我们还计算了真实视频的值作为比较的参考。对于缺乏真实视频参考的 openset 测试集，我们进行了主观评估。邀请了十位经验丰富的用户评估六个关键维度：身份一致性、视频合成质量、音频情感。

表 1：与现有方法在 CelebV-HQ 测试集上的比较。

方法	IQA	同步-C	同步-D	FVD-Res	FVD-Inc	FID	平滑	GIo	经验	E-FID
悲伤谈话者	2.953	3.843	8.765	171.848	1746.038	36.648	0.9964	0.554	0.270	2.248
你好	3.505	4.130	9.079	53.992	742.974	35.961	0.9946	0.499	0.255	2.426
VExpress	2.946	3.547	9.415	117.868	1356.510	65.098	0.9957	0.020	0.166	2.414
回声模仿	3.307	3.136	10.378	54.715	828.966	35.373	0.9926	2.259	0.640	3.018
GT	-	-	-	-	-	-	0.9937	3.249	0.506	-
循环的							0.9949	2.233	0.452	2.307

表 2：与现有方法在 RAVDESS 测试集上的比较。

方法	IQA	同步-C	同步-D	FVD-Res	FVD-Inc	FID	平滑	GIo	经验	E-FID
悲伤谈话者	3.840	4.304	7.621	22.516	487.924	32.343	0.9955	0.604	0.120	3.270
你好	4.393	4.062	8.552	38.471	537.478	19.826	0.9942	0.194	0.080	3.785
VExpress	3.690	5.001	7.710	62.388	982.810	26.736	0.9962	0.007	0.039	3.901
回声模仿	4.504	3.292	9.096	54.115	688.675	21.058	0.9924	0.641	0.184	3.350
GT	-	-	-	-	-	-	0.9917	3.335	0.317	-
循环的		4.814					0.9923	2.962	0.343

匹配、运动多样性、运动的自然性和口型同步准确性。在每种情况下，参与者需要识别每个维度中表现最佳的方法。

3.5.1 结果与分析

在复杂场景中的表现。CelebV-HQ 包含名人在各种场景中讲话的视频，包括电影和采访，室内和室外，以及多样的肖像姿势。这使得在该数据集上的测试有效地模拟了现实世界的使用条件。如表 1 所示，我们的方法在大多数指标上显著优于比较方法，补充材料中提供的比较视频证明了这一点。关于与运动相关的指标，尽管不是最佳，但我们的结果在平滑度方面与真实值相似。在动态表情指标（Exp）中，我们的方法与真实值非常接近，超过了比较方法。在全局运动（Glo）方面，我们的表现与 EchoMimic 相似。然而，很明显，我们的方法在视频合成质量和口型同步准确性方面具有明显优势。

情感表达的表现。RAVDESS 是一个高清晰度的对话场景数据集，包含具有不同情感强度的视频。它有效地评估了该方法在情感表达方面的表现。正如 E-FID（Tian 等，2024）指标所示，我们的方法优于比较的方法。这在运动动态指标 Glo 和 Exp 中得到了证实，我们的结果更接近真实值。尽管我们的唇同步准确性略逊于 VExpress，但需要注意的是，VExpress 生成的结果通常缺乏动态运动，这一点在 Glo、Exp 和 E-FID 指标中得到了体现。这种静态特性在使用 SyncNet 测量唇同步准确性时可能提供优势。

开放集场景中的表现。我们比较了不同的输入风格（真实人物、动漫、类人作品和侧脸）以及各种类型的音频（语音、唱歌、说唱和情感音频），以评估这些方法的鲁棒性。如表 3 所示，Loopy 在这些多样化场景中始终优于比较的方法。

3.5.2 消融研究

关键组件分析。我们分析了 Loopy 的两个关键组件的影响，即交互/内部剪辑时间层和音频到潜在模块。对于前者，我们进行了两个实验：（1）去除双时间层设计，保留单一时间层来处理最后和当前剪辑的时间关系，类似于 EMO 和 Hallo 等方法；（2）去除时间段模块，保留其他方法中的 4 个运动帧设计。对于后者，我们去除了音频到潜在模块，仅保留交叉注意力用于音频特征注入。结果如表 3 所示，显示双时间层的效果。

图 5：开放集测试集上的用户投票比较。第一行包括不同类别输入图像的实验结果，第二行包括不同类别输入音频的实验结果。

表 3：所提模块有效性的实验。

方法	IQA	同步-C	同步-D	平滑
完整模型	4.507	6.303	7.749	0.9932
无剪辑间隔温度。	4.335	6.104	8.129	0.9942
无 TSM	4.386	6.054	8.235	0.9922
无 A2L	4.428	5.999	8.351	0.9922
单温 +20 mf	4.072	6.201	8.309	0.9752
	4.461	5.919	8.245	0.9940
	4.453	5.855	8.326	0.9930
	4.443	6.083	8.161	0.9930
	4.424	6.219	8.004	0.9931
均值样本	4.452	5.907	8.199	0.9931
随机样本	4.438	6.098	8.144	0.9932

层设计提高了时间稳定性和图像质量，而其移除会导致性能下降。移除时间段模块会阻止模型从长期运动依赖中学习运动风格信息，导致整体运动质量下降，包括表现力和时间稳定性。移除音频到潜在模块也会降低合成视觉和运动的整体质量。这是因为，在音频到潜在模块的训练过程中，添加了空间条件以进行混合训练。与单独的音频相比，空间条件提供了更清晰的运动指导，促进了模型的更容易收敛。这些结果验证了我们方法的有效性。

长期时间依赖性的影响。我们还研究了长期运动依赖性对结果的影响，并在表 3 中列出了结果。最初，我们在单一时间层设置下比较了将运动帧长度扩展到 20 的效果。我们观察到，尽管这种方法增强了模型输出的动态性，但显著降低了整体图像质量。相比之下，在具有 20 个运动帧的完整模型中，添加的片段间/片段内时间层确实改善了整体结果。关于 s 和 r 的设置，我们进行了各种值的实验。从固定的

开始，我们发现较小的 s 值导致整体性能较差。我们将此归因于目标帧和运动帧之间 FPS 的差异，这使得由于运动帧比例较低而复杂化了片段间时间建模。随着 s 的增加，运动帧的数量也增加，使得片段间时间层能够有效建模跨片段的时间关系，从而显著增强。

整体表现。我们还比较了与相同

的 r 的影响，其中

。较小的

表示时间覆盖范围较窄，这与完整模型

相比略微降低了性能。最后，我们探索了时间段模块内运动帧的不同采样策略，比较了平均池化和随机单帧采样等方法。完整模型的均匀采样方法被证明更有效，这可能是因为它提供了更稳定的间隔信息，有利于剪辑间时间层学习长期运动信息。

图 6：在不同场景中由 Loopy 生成的视频可视化

3.5.3 视觉结果分析

我们提供图 6 中开放集场景的视觉分析。与其他方法相比，Loopy 在 ID 保留、运动幅度和图像质量方面表现出显著优势。它在处理不常见图像时也表现良好。更多视频结果可在补充材料中找到。

4 结论

在本文中，我们提出了 LOOPY，一个端到端的音频驱动肖像视频生成框架，它不需要空间条件，并利用长期运动依赖关系从数据中学习自然运动模式。具体而言，我们引入了剪辑间/剪辑内时间层设计和音频到潜在空间模块，增强了模型从时间和音频维度学习音频与肖像运动之间相关性的能力。大量实验验证了该模型的有效性。

我们的方法的有效性，展示了在时间稳定性、运动多样性和整体视频质量方面相较于现有方法的显著改善。

参考文献

阿列克谢·巴耶夫斯基，周宇豪，阿卜杜勒拉赫曼·穆罕默德，和迈克尔·奥利。wav2vec 2.0：一种自监督学习语音表示的框架。神经信息处理系统进展，

。

奥梅尔·巴尔-塔尔，希拉·切费尔，奥梅尔·托夫，查尔斯·赫尔曼，罗尼·派斯，希兰·扎达，阿里尔·埃夫拉特，洪俊华，李元珍，托梅尔·米哈埃利，等。Lumiere：一种用于视频生成的时空扩散模型。arXiv 预印本 arXiv:2401.12945，2024 年。

安德烈亚斯·布拉特曼，蒂姆·多克霍恩，苏米特·库拉尔，丹尼尔·门德列维奇，马切伊·基利安，多米尼克·洛伦茨，亚姆·莱维，锡安·英格利什，维克拉姆·沃莱蒂，亚当·莱茨等。稳定视频扩散：将潜在视频扩散模型扩展到大数据集。arXiv 预印本 arXiv:2311.15127，2023 年。

安德烈亚斯·布拉特曼，罗宾·隆巴赫，林欢，蒂姆·多克霍恩，金承旭，桑贾·菲德勒，和卡斯滕·克雷斯。对齐你的潜变量：使用潜在扩散模型进行高分辨率视频合成。在 IEEE/CVF 计算机视觉与模式识别会议论文集中，第

页。

蒂姆·布鲁克斯，雅娜·赫尔斯滕，米卡·艾塔拉，汪廷春，蒂莫·艾拉，雅科·莱赫蒂宁，刘明宇，阿列克谢·埃夫罗斯，和特罗·卡拉斯。生成动态场景的长视频。《神经信息处理系统进展》，35:31769-31781，2022 年。

陈志远, 曹家炯, 陈志全, 李宇明, 和马承光. Echomimic: 通过可编辑的地标条件实现逼真的音频驱动肖像动画. arXiv 预印本 arXiv:2407.08136, 2024.

恩里克·科罗纳，安德烈·赞菲尔，爱德华·加布里埃尔·巴扎万，尼科斯·科洛图罗斯，蒂莫·阿尔迪克，和克里斯蒂安·斯敏奇塞斯库。视频博主：用于具身化虚拟形象合成的多模态扩散。arXiv 预印本 arXiv:2403.08764，2024。

尼基塔·德罗比舍夫，耶尼亚·切利舍夫，塔拉斯·哈卡胡林，阿列克谢·伊瓦赫年科，维克托·伦皮茨基，和叶戈尔·扎哈罗夫。巨型肖像：一次性百万像素神经头像。发表于第 30 届 ACM 国际多媒体会议论文集，页码 2663-2671，2022 年。

郭宇伟，杨策源，饶安怡，梁正阳，王耀辉，乔宇，马尼什·阿格拉瓦尔，林大华，戴博。Animatediff：无需特定调优即可动画化您的个性化文本到图像扩散模型。arXiv 预印本 arXiv:2307.04725，2023。

Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, 和 José Lezama。使用扩散模型生成照片级真实感视频。arXiv 预印本 arXiv:2312.06662, 2023。

何天宇, 郭俊良, 于润怡, 王宇驰, 朱佳良, 安凯凯, 李乐怡, 谭旭, 王春宇, 胡汉, 等. Gaia: 零-shot 交谈头像生成. arXiv 预印本 arXiv:2311.15230, 2023.

乔纳森·霍和蒂姆·萨利曼斯。无分类器扩散引导。arXiv 预印本 arXiv:2207.12598，2022。

乔纳森·霍、阿贾伊·贾因和皮特·阿贝尔。去噪扩散概率模型。神经信息处理系统进展，33:6840-6851，2020。

乔纳森·霍，蒂姆·萨利曼斯，阿列克谢·格里岑科，威廉·陈，穆罕默德·诺鲁齐，和大卫·J·弗利特。视频扩散模型。神经信息处理系统进展，35:86338646，2022。

李虎。让任何人动起来：一致且可控的图像到视频合成用于角色动画。在 IEEE/CVF 计算机视觉与模式识别会议论文集中，页码

黄子奇，何怡南，余家硕，张帆，司晨阳，姜宇明，张元汉，吴天星，金青阳，纳塔波尔·昌派西特，等。Vbench：视频生成模型的综合基准套件。发表于《IEEE/CVF 计算机视觉与模式识别会议论文集》，第 21807-21818 页，2024 年。

Kaggle。Ravdess 情感语音音频。https://www.kaggle.com/datasets/ uwrfkaggler/ravdess-emotional-speech-audio。

DP Kingma. 自编码变分贝叶斯. arXiv 预印本 arXiv:1312.6114, 2013.

李怡彤，马丁·敏，邓汉·申，大卫·卡尔森，劳伦斯·卡林。基于文本的视频生成。载于 2018 年人工智能 AAAI 会议论文集，第 32 卷。

博荣·梁，燕·潘，志志·郭，杭·周，志斌·洪，小光·韩，俊宇·韩，景拓·刘，尔瑞·丁，京东·王。具有细粒度视听控制的表现性对话生成。在 IEEE/CVF 计算机视觉与模式识别会议（CVPR）论文集中，页码 3387-3396，2022 年 6 月。

伊利亚·洛希奇洛夫和弗兰克·胡特尔。解耦权重衰减正则化。arXiv 预印本 arXiv:1711.05101，2017。

马一峰，张世伟，王家宇，王翔，张颖雅，邓志东。梦谈：当表现力丰富的虚拟人生成与扩散概率模型相遇。arXiv 预印本 arXiv:2312.09767，2023。

KR Prajwal, Rudrabha Mukhopadhyay, Vinay P Namboodiri 和 CV Jawahar。您所需要的只是一个唇动同步专家，以实现野外的语音到唇部生成。在第 28 届 ACM 国际多媒体会议论文集中，页码 484-492，2020 年。

任宇瑞，戈力，陈元奇，李汤姆·H，刘珊。Pirenderer：通过语义神经渲染可控的人像图像生成。发表于 IEEE/CVF 国际计算机视觉会议论文集，页码 13759-13768，2021 年。

罗宾·隆巴赫，安德烈亚斯·布拉特曼，多米尼克·洛伦茨，帕特里克·埃塞尔，和比约恩·奥默。使用潜在扩散模型进行高分辨率图像合成。载于《IEEE/CVF 计算机视觉与模式识别会议论文集》，第 10684-10695 页，2022 年。

斯特芬·施奈德，阿列克谢·巴耶夫斯基，罗南·科洛贝尔特，和迈克尔·奥利。wav2vec：用于语音识别的无监督预训练。arXiv 预印本 arXiv:1904.05862，2019。

阿利亚克桑德·西亚罗欣，斯特凡·拉图伊利埃，谢尔盖·图利亚科夫，埃莉萨·里奇，尼库·塞贝。用于图像动画的一阶运动模型。神经信息处理系统进展，32，2019。

阿利亚克桑德·西亚罗欣，奥利弗·J·伍德福德，任健，柴梦雷，谢尔盖·图利亚科夫。用于关节动画的运动表示。在 2021 年 IEEE/CVF 计算机视觉与模式识别会议论文集中，页码 13653-13662。

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni 等人。Make-a-video：无需文本-视频数据的文本到视频生成。arXiv 预印本 arXiv:2209.14792，2022。

Jiaming Song, Chenlin Meng, 和 Stefano Ermon. 去噪扩散隐式模型. arXiv 预印本 arXiv:2010.02502, 2020.

米哈乌·斯蒂普尔科夫斯基、康斯坦丁诺斯·沃尤吉卡斯、何森、马切伊·齐巴、斯塔夫罗斯·佩特里迪斯和玛雅·潘蒂克。扩散头：扩散模型在对话人脸生成上超越 GAN。载于《IEEE/CVF 计算机视觉应用冬季会议论文集》，第 5091-5100 页，2024 年。

林瑞天、齐王、邦张和李丰博。Emo：在弱条件下使用音频到视频扩散模型生成生动的情感肖像视频。

arXiv:2402.17485，2024。

托马斯·乌特因纳，斯乔德·范·斯廷基斯特，卡罗尔·库拉赫，拉斐尔·马里尼耶，马尔钦·米哈尔斯基，和西尔万·盖利。Fvd：视频生成的新度量。2019。

亚伦·范登·奥德，奥里奥尔·维尼亚尔斯等。神经离散表示学习。神经信息处理系统进展，30，2017。

鲁本·维列加斯，穆罕默德·巴巴伊扎德，皮特-扬·金德曼斯，赫尔南·莫拉尔多，韩·张，穆罕默德·塔吉·萨法尔，圣地亚哥·卡斯特罗，尤利乌斯·昆泽，和杜米特鲁·埃尔汉。Phenaki：从开放领域文本描述生成可变长度视频。在国际学习表征会议，2022 年。

从王、宽天、俊张、永航关、风罗、飞申、志伟姜、青谷、小汉和伟杨。V-express：用于肖像视频生成渐进训练的条件丢弃。arXiv 预印本 arXiv:2406.02511，2024。

王九牛，袁航杰，陈大友，张颖雅，王翔，张世伟。Modelscope 文本到视频技术报告。arXiv 预印本 arXiv:2308.06571，2023。

王廷春、阿伦·马利亚和刘明宇。用于视频会议的一次性自由视角神经对话头合成。载于 2021 年 IEEE 计算机视觉与模式识别会议论文集。

王耀辉，皮奥特·比林斯基，弗朗索瓦·布雷蒙，安提察·丹切娃。《Imaginator：用于视频生成的条件时空生成对抗网络》。在《IEEE/CVF 计算机视觉应用冬季会议论文集》，第 1160-1169 页，2020 年。

吴浩宁, 张子诚, 张维霞, 陈超峰, 廖亮, 李春怡, 高逸轩, 王安南, 张尔丽, 孙文秀, 等. Q-align: 通过离散文本定义的级别教学 lmms 进行视觉评分. arXiv 预印本 arXiv:2312.17090, 2023.

徐明旺，李辉，苏青坤，尚汉林，张李伟，刘策，王京东，卢克·范·古尔，姚瑶，朱思宇。Hallo：基于层次音频驱动的肖像图像动画合成。arXiv 预印本 arXiv:2406.08801，2024a。

徐思成，陈国军，郭宇晓，杨骄龙，李冲，臧振宇，张毅忠，童鑫，郭百宁。Vasa-1：实时生成的栩栩如生的音频驱动人脸。arXiv 预印本 arXiv:2404.10667，2024b。

杨振东, 曾爱玲, 袁春, 和李宇. 基于两阶段蒸馏的有效全身姿态估计. 在 IEEE/CVF 国际计算机视觉会议论文集中, 第

页.

张晨旭，王超，张剑锋，许鸿毅，宋国贤，谢优，罗林杰，田亚鹏，郭小虎，冯佳士。梦话：基于扩散的现实情感音频驱动的单图像对话人脸生成方法。arXiv 预印本 arXiv:2312.13578，2023a。

张文轩、村晓东、王璇、张勇、沈希、郭宇、单颖和王飞。Sadtalker：学习用于风格化音频驱动的单图像说话人脸动画的真实 3D 运动系数。发表于 2023 年 IEEE/CVF 计算机视觉与模式识别会议论文集，页码 8652-8661。

张志梦，李林城，丁宇，范长杰。基于流引导的一次性对话人脸生成与高分辨率音视频数据集。在 IEEE/CVF 计算机视觉与模式识别会议论文集中，页 3661-3670，2021 年。

周大权，王伟民，闫汉书，吕伟伟，朱逸哲，冯佳士。Magicvideo：基于潜在扩散模型的高效视频生成。arXiv 预印本 arXiv:2211.11018，2022 年。

杨周，韩新彤，埃利·谢赫特曼，何塞·埃切瓦里亚，埃万杰洛斯·卡洛格拉基斯，和李丁泽宇。Makelttalk：说话者感知的虚拟人动画。ACM 图形学会会刊（TOG），39（6）：

。

Hao Zhu, Wayne Wu, Wentao Zhu, Liming Jiang, Siwei Tang, Li Zhang, Ziwei Liu, 和 Chen Change Loy. Celebv-hq: 一个大规模视频面部属性数据集. 在欧洲计算机视觉会议上, 第 650-667 页. Springer, 2022.

朱璐扬, 杨大伟, 朱泰勒, 菲茨姆·雷达, 威廉·陈, 奇特万·萨哈里亚, 穆罕默德·诺鲁兹, 和伊拉·凯梅尔马赫-施利泽曼. Tryondiffusion: 两个 unet 的故事. 在 2023 年 IEEE/CVF 计算机视觉与模式识别会议论文集中, 第 4606-4615 页.

*平等贡献
项目负责人

在字节跳动实习期间完成的。