NAMM 演示文稿脚本.docx

工作人员：米格尔（主持人），侃如（演讲者）

目标受众：

P主要：已经看到我们 2.0 预告片的现有用户，感到兴奋并想了解更多，但无法参加 NAMM。

次要目标：早期了解 Synthesizer V 的新用户，或者在展会期间或之后刚刚了解我们的用户，他们可能对我们的产品/品牌感兴趣但持怀疑态度。

目的：

提升对即将到来的 2.0 的兴奋感，围绕这个话题制造一些热议。

为我们的品牌增添人性化元素，提高其可信度。

提高以下预售活动的销售转化率。

教育现有用户关于我们选择移除某些功能的原因。

教育现有用户关于新工作流程的信息。防止他们在获得新版本后试图坚持使用旧工作流程，并因此感到失望，因为旧工作流程将不再有效。

不要提及：

以下预售活动。

发布日期和定价。

关于第三方 VDB 的具体信息。

米格尔：嗨！今天我们将向您展示我们在 Synthesizer V Studio 2 版本中一些令人兴奋的发展。我是米格尔，Dreamtonics 的产品专家。

Kanru：我是 Kanru，Dreamtonics 的创始人。告诉你，在你观看这个视频的时候，我们已经在 NAMM 展会上，你将能够试用这个正在开发中的 2.0 版本。

米格尔：对于那些无法参加活动的人，以及那些迫不及待想要了解更多的人，我们录制了这个视频，以便你们可以与我们一起虚拟体验！

Kanru：现在进入主题。米格尔，你能想象自从我们推出 Synthesizer V Studio 1 已经快五年了吗？

米格尔：是的。那是在 2020 年 6 月吗？你做了这样的演示。那是从 Synthesizer V 编辑器到 Synthesizer V 工作室的过渡。实际上，我最近才了解到 Synthesizer V 中的 V 不仅代表人声，还意味着 5。那么在此之前还有更多版本吗？

（显示旧版发布演示视频的画中画）

Kanru：在某种意义上，确实如此。你知道，5 是一个神奇的数字，它代表了完善一个产品所需的版本数量。有几个很好的例子，比如操作系统 System V、火箭 Saturn V，甚至是 Windows XP。

米格尔：所以在 2018 年 Synthesizer V Editor 发布时，你已经经历了 4 个未能上市的版本。

（显示 Synthesizer V 编辑器的屏幕截图）

Kanru：是的，它们并没有被命名为合成器 1、2、3、4。那是十年前的事了，在深度学习之前。那时候它是一个采样器，自那时起事情发生了根本性的变化。

米格尔：谈到变化。请允许我跳到大问题。即将发布的 Synthesizer V Studio 2 有哪些变化？

Kanru：四个词，更大、更好、更快、更强。你知道我希望我能说出来，但对于软件来说，做到更难是困难的 : )

米格尔：好的，先告诉我声音质量。版本 2 会有多好？

Kanru: 好吧，我们达到了人类水平的自然性。

米格尔：听起来很棒。但是，你需要稍微解释一下这些话。我知道你在一年半前的 ADC 会议上已经谈过这个。实际上，你演讲的标题是“超越人类水平自然性的歌唱合成：不是你想的那样”。

(显示 ADC 演讲视频缩略图)

Kanru：哈哈，所以你已经做了研究。这个讲座是关于我们当时进行的一系列听力测试。我们始终遵循测试驱动的研究与开发。当我们设计出一个被认为足够有前景的新算法时，我们会将其送出进行听力测试。基本上，聚集一组有音乐背景的 50 名听众，让他们对合成样本与真实样本进行评分，样本以随机顺序呈现。

（展示一张来自 ADC 演讲的幻灯片）

米格尔：所以这次谈话是关于你第一次让人们对合成样本的评价高于真实样本。

Kanru：这就是演讲的第一部分。但正如标题所说，这并不是你想的那样。我们进行了定性研究作为后续。结果显示，或许不必多说，人们是复杂的听众。有些人认为流畅、一致的声音是自然的。有些人则更喜欢不那么完美的声音。我们问他们哪个听起来更自然，但他们的选择实际上是关于偏好的。

米格尔：这是否意味着我们的测试驱动研发有问题？这项研究的主要结论是什么？

Kanru：嗯，起初我很高兴，因为至少在数字方面，我们达到了声音合成的圣杯。这是我们可以用于营销的一个强大事实！然后我感到困扰，因为我们进入了这种哲学斗争的阶段，如何可能在结果无法轻易衡量的情况下改善某些东西。

此外，至少根据数字来看，击败人类的系统相当庞大。它是一个仅在服务器上运行的研究原型，而不是在笔记本电脑上运行的 Synthesizer V Studio。

米格尔：所以那是为了“更大”和“更好”，来自“更大、更好、更快、更强”。你成功让那个笨重的原型在小型机器上运行了吗？我想你在那之后的某个时候有了顿悟。

Kanru：这只是故事的一部分。在 Synthesizer V Studio 的版本 1 和版本 2 之间，我们进行了近 100 轮听力测试。我逐渐意识到这些测试的局限性。我们向听众呈现的是干声，没有上下文，但音乐就是关于上下文的。如果你让一位爵士歌手翻唱 K-pop，显然听起来不会自然。

米格尔：听起来是个很好的理由，在这些测试之后审查和调整我们的目标。

Kanru：确实。人类级自然性的答案实际上超出了算法本身。我得出的结论是，我们需要在版本 2 上做两件事：一是更好的动态，二是更多的控制。

米格尔：动态是我们一直以来追求的目标。这一切始于我们在 1.7 版本中添加的 AI 重拍功能，对吧？

（显示 SV1 中 AI 重拍面板的截图）

Kanru: 是的。听力测试只展示了一种唱歌方式，但同一句话应该有无数种唱法，有些更好，有些更差。

米格尔：所以，你可以尝试更多人性化的重拍，并选择最佳的一个。控制怎么样？

Kanru：控制是为了告诉机器你的音乐的上下文，这样人声才能与编曲和你正在使用的风格相协调。

米格尔：这听起来像是另一个功能的角色，声乐模式。我们可以期待声乐模式的改进吗？

（显示 SV1 中 Vocal Modes 功能的屏幕截图）

Kanru：是的，不仅仅是声乐模式。Synthesizer V 不是一个单向的过程。就像与真实歌手合作一样，这涉及到反复和互动的调整。你先输入音符并听到它们，然后你会做一些更改，再次听到它。当我们设计这样的系统时，我们不仅应该关心最终结果，还应该关注这个过程本身。

米格尔：我记得 Synthesizer V Studio 发布的一个亮点，就是引入了实时渲染系统。：可以在听到之前看到变化。

Kanru：我们坚持这种设计理念。无论它简化到什么程度，关于上下文的概念都需要从某个地方输入到机器中。因此，我们并不是想让软件接管一切。我们试图使控制尽可能快速和直观。你所改变的应该是你所看到的，而你所看到的应该是你所听到的。

质量与速度演示

米格尔：我对直觉意味着什么有一个大致的了解。现在，你能告诉我们它有多快吗？

Kanru：300%。这就是它与版本 1 相比的速度。

米格尔：好的。300%的渲染速度。在我问你这怎么可能之前，你得先给我们看看现在的效果。

Kanru：所以这是 Natalie 的一个演示。让我先给你听听它在版本 1 中的声音。

[Kanru 在 Synthesizer V Studio Pro 中打开 Natalie “California Sunshine”项目，等待其渲染，并稍微播放了一下]

米格尔：所以那是娜塔莉在 Synthesizer V Studio 1 上。

Kanru：这是在 Synthesizer V Studio 2 上的新 Natalie。

[Kanru 在版本 2 中打开相同的项目，等待其渲染，并播放回放]。

米格尔: [对演示的评论.] 你能试着编辑一下吗?

Kanru: 当然。让我改几个注释，这样你就能看到它重新渲染的速度。

[Kanru 在几个音符上更改了歌词“我乘火车去 NAMM 二零二五”，并播放了它。]

米格尔：那怎么可能？是在云端，还是在 GPU 上，或者其他什么地方？

Kanru：实际上我们仍然完全离线并基于 CPU。我们进行了很多优化，最重要的是充分利用现代处理器上的核心。

[Kanru 画出了一块白板，上面有一些类似于 Synthesizer V Studio 排列界面的图画]

[Kanru 在每条轨道上放置一个磁性针]

Kanru：我们在之前的版本中确实有多线程功能，基本上是将一个 CPU 核心分配给每个音轨或每组音符。

[Kanru 移除所有别针，除了一个]

然而，由于你通常一次只处理一条轨道，这导致资源的巨大浪费。

米格尔：所以它现在即使在你只处理一个轨道时也会使用所有核心吗？

[Kanru 在一个轨道内移动所有引脚]

Kanru：是的。如果你想知道当你的 CPU 只有两个核心时是否会有速度提升，仍然会因为我们做的其他优化而增加 50%。

米格尔：令人印象深刻。这将使尝试不同的声音表达变得更加顺畅。说到表达，我们可以通过这个新版本的 Synthesizer V 实现什么样的控制？

功能演示：声乐模式

Kanru: 让我们遵循推荐的工作流程。所以首先你需要设置声乐模式。

米格尔：如果你不知道，Vocal Mode 是一个将歌手的音域与歌曲情绪相匹配的功能。

[Kanru 打开语音面板并将语音模式设置为粗体]

米格尔：听起来完全不同。更有力量。这些旋钮周围的圆圈是什么？

Kanru：好问题。让我们扩展这个选项。现在你看，我们有三个滑块。我们可以独立控制每种声音模式的音高、音色和发音。

米格尔：听起来很强大。你可以用它做什么样的组合？.

Kanru：例如，我可以选择只使用强有力的音色，并使音高和发音更柔和。

米格尔：（评论声音，并询问是否可以进行其他更改或尝试其他声乐模式）（从粗体到柔和）我真的很喜欢它们之间的不同，是否仍然可以自动化这些变化？

Kanru：当然，你也可以自动化声音模式，比如从柔和开始，然后过渡到大胆。在我们深入讨论之前，先让我们尝试修复几个地方。我认为那里仍然可以听起来更好。

功能演示：AI 重拍

[Kanru 打开了笔记面板]

米格尔：这是新的 AI 重拍。

Kanru：新的 AI 重拍，现在已集成到笔记面板中。它可能看起来简化了，但实际上比以前更具多功能性。

米格尔：以防你还没听说过 AI 重唱，这是一个让我们的虚拟歌手以不同方式演唱相同音符的功能。你可以多次重唱，并选择你最喜欢的那一个。.

Kanru：第一个主要新增功能是能够重新录制音素的时机，以及一个重新录制所有内容的快捷方式。

[Kanru 选择了一些音符，播放原版，重新录制所有，然后再次播放]

[“感觉如此” x3 -> “温暖” x6 音色 -> “肌肤” x3]

您还会注意到，在这个版本中，镜头之间的差异变得相当明显。

米格尔：（指出这是一个可听的变化，一些音素变得更短或更长。）我觉得自从“f”变得更长以来，紧张感更强了。

Miguel: 这个表达下的 XY 面板是什么？它会影响重拍吗？

Kanru：表达垫影响所有的录音，主要是对音高的生成方式，但在某些情况下也会影响音色。在我解释背后的概念之前，让我先给你听听它的声音。

[Kanru 前往歌曲“我乘火车去 NAMM 2025”的另一个部分]

Kanru: 让我们从 Stable 开始。

米格尔: (对声音的评论) 这让我想起我们曾经使用的滑块，表现力和增强，这个就像将表现力设置为低的第一个版本。

Kanru: 现在已精炼。

米格尔: (对声音的评论) 这有点像旧的增强滑块。

Kanru：是的，你可能已经猜到这是将两个表情滑块重新映射到二维空间。但这并不止于此。生动模式强调了声音的特征，包括当前的声音模式。

Kanru：最后是原始模式。这个模式试图重现用于训练语音模型的原始样本中的完整动态。你可能会注意到某些音符的音高可能会偏离。

米格尔：我们上次谈到了这个概念，关于创建一种“受控混乱”（来自 Felicia 演示视频）

Kanru: 详细解释一下这是什么意思

[Kanru 进行了一轮重拍]

米格尔：对声音的评论

[Kanru 做更多的尝试]

米格尔：我明白了，是的，这意味着更人性化的声音。如果你在处理伴唱，那么就将其设置为稳定模式。但如果你在处理主唱，那么你可能想尝试原始模式，并投入一些时间进行录音。

Kanru：你探索的模式越多，声音就可能越好。把表达垫视为一种风险管理工具。如果你想获得绝对最佳的结果，那么你需要冒险去尝试一些可能不太理想的录音。

功能演示：音素时序面板

米格尔：好的，所以，我们一直在讨论您可以使用版本 2 进行的快速调整。我知道你们中的许多人在想如何更精确，使其听起来完全符合您的想法。您可能在我们圣诞前夕发布的预告中看到了，有一个新的音素面板。也许我们可以演示一下这个功能？

Kanru: 当然。你知道我们在第一个版本中确实有一组音素持续时间滑块，你可以拉伸或缩短每个音素的长度。

（显示 SV1 中音素持续时间滑块的屏幕截图）

米格尔：是的。但是，我听到我们的用户说，有时它的表现并不太直观。当你尝试让一个音素变长时，你不知道它会向左移动还是向右移动。

Kanru：这就是为什么我们决定用一个专用的音素轨道替代那个功能，并将其集成到钢琴卷中。现在你可以拖动音素边界，直接设置每个音素的开始和结束位置。

米格尔：很好。仅作为一个例子你能试着把那个m 在 NAMM稍微向左移动一下，只是看看会发生什么？

[Kanru 执行操作]

Kanru: 实际上，它不仅仅是调整时机。您还可以拖动这些垂直滑块来调整每个音素的强度。

米格尔：当你说力量时，是指响度吗？

Kanru：不仅仅是音量，还与清晰度有关。例如，如果我降低这个元音的强度，你会听到声音变得有点模糊。

[Kanru 减少了“twenty”中的“iy”音的强度]

米格尔：我可以看到这如何节省我手动绘制响度和张力自动化的时间。顺便问一下，并不是所有的滑块都是矩形的。那些带三角形的是什么？

Kanru：这些信封形状是专门为辅音制作的。它们指示爆破音起始的位子和强度。就像“ka, pa, ta”的尖锐和清晰的起始……

[Kanru 演示了缩短 tr 音素的效果]

Kanru: 使用此功能，您可以轻松静音一个辅音。我发现它对于修复这些“顽皮”的辅音簇特别有用。

[Kanru 演示修复“火车”和“二十”]

米格尔：这非常详细的编辑。我想我们可以利用音素时机来“自然化”唱歌的流畅度。

Kanru：当然。但就工作流程而言，我建议从 AI 重拍开始，因为它现在也可以重新调整时间。如果经过几次重拍后仍然找不到足够好的，那时你应该尝试用音素面板来修复它。

米格尔：这是否意味着你也能在音素面板上看到 AI 重做的结果？

Kanru: 是的。看看音素在我重新调整节奏时是如何左右移动的。

米格尔：渲染瞬间完成。

Kanru：优化不仅仅是关于速度。它还涉及延迟。我们正在最小化音素放置、音高更新和第一个音频样本输出之间的时间。

米格尔：降低延迟，以便在听到之前看到变化。

功能演示：智能音高控制

Kanru：没错。这就是想法。让我给你展示另一个快速可视化变得有用的功能。首先，你能回忆起在 Synthesizer V Studio 中有多少种方式可以自定义音高吗？

米格尔：好吧。起初我们有音高偏差和手动模式参数。然后有了自动音高调节，后来被自动模式取代。您还可以使用直接音高编辑在钢琴卷上修改音高偏差……

（展示不同音高编辑功能的截图）

Kanru：你看。这有很多种方法来实现同样的目标。我们最终有了彼此不兼容的模式。现在，如果我告诉你有一种方法可以替代所有这些呢？

米格尔：这听起来很难做到。你知道，我们使用手动模式来精确设置音高过渡，但你是如何让 AI 理解你在手动模式下所做的编辑的？

Kanru：这正是我们设计智能投球控制的目的。

[Kanru 切换到控制点模式，并在“加利福尼亚”上放置一个点]

米格尔：看起来你在这条笔记的开头刚刚创建了一个小的下凹。这和版本 1 中的控制点一样吗？

Kanru：它们的表现不同。模型现在可以看到您放置的智能控制点，并将尝试生成一个自然听起来的音高曲线，该曲线经过这些点。这就像自动补全。

米格尔：有趣。所以一旦你创建一个点，投影就会重新渲染。

Kanru：而且当你拖动这个点时，这使得有很多创造性的使用方式。例如，我可以一直拖动这个点沿着音符移动，观察它的反应。我可以扫描有趣的地方，看看它产生戏剧性变化的地方。

[Kanru 在“for”和“nia”之间创建了另一个点并将其拖动]

米格尔：如果我在寻找一个特定的表达怎么办？你能改变这些音调过渡的时机吗？

Kanru: 是的。让我再添加一个，也许两个控制点。现在，我可以选择它们全部并水平拖动。

米格尔：颤音怎么样？你能用智能控制点调节颤音吗？

Kanru：首先，如果您只需要调制整个音符，请转到音符面板并使用颤音调制。这与版本 1 相同。我们还有颤音包络参数。这些功能仍然存在，因为它们与其他功能兼容。

（显示提到的功能的屏幕截图）

最后，有一种方法可以使用智能音高控制来实现：只需在那些峰值上创建几个点。你不需要为所有峰值都这样做，只需 3 或 4 个点即可。当你移动它们时，系统会理解需要保持一致的颤音结构，并会对周围区域进行调整。

[Kanru 在“nia”上创建了一些点并将它们拖动]

米格尔：这听起来确实很强大。但是如果我想要更精确呢？还有没有办法手动绘制音高曲线？

Kanru：是的。是另一种模式。我们正在重新引入铅笔工具，但在后台使用智能控件重新实现。

假设我想让音高在这个音符的末尾下降。我甚至不需要绘制整个音高弯曲。只需绘制一小部分，然后观察它填充其余部分。

[Kanru 在“我来了”中的“I”上画了一条短曲线。]

米格尔：如果你愿意，你仍然可以手动绘制整个图形，对吧？

Kanru：是的，你可以将音高拉平，使其听起来像自动调音；你可以绘制任何你想要的形状，就像我们在版本 1 中做的那样。但是，有一个主要的优势：控制点和曲线将始终附着在最近的音符上。因此，如果你移动音符，这些智能音高控制将会跟随。

[Kanru 在“这里”和“来”上画了几个曲线，切换到音符编辑模式，去掉了呼吸音，并拖动“我来了”的音符。注意：画短曲线，并确保它们不覆盖整个音符，否则在下一轮演示重录时会很困难。]

米格尔：确实，我听到了用户对一种模式的请求，该模式可以使音高弯曲与音符一起移动。这解决了问题。

Kanru：另一个好处是你仍然可以在控制点和曲线之间的间隙中进行重拍。你看，无论我重拍多少次，它仍然会通过我之前放置的点。

米格尔：嗯。我明白你所说的让模式兼容的意思。

功能演示：嘴部开口参数

Kanru: 在我们结束之前，我还有一个最后的把戏。我们可以继续吗？

米格尔：当然，我们来看看。

[Kanru 带来了一个 USB 摄像头]

米格尔：你真的是藏了一手。这是一个 USB 摄像头吗？

Kanru：没错。它的帧率比那些典型的相机高。所以我有这个 DIY 的副业。我 3D 打印了一个框架，并将其安装在麦克风支架上，录制了与人声同步的视频。

米格尔：你拍这个视频是为了什么？我们不会制作那种带有人脸的 AI 头像吧？

Kanru：这将会非常有趣。我们进行了面部识别，并从视频中提取了嘴形，然后用这些数据训练了我们的模型。现在，我们有一个新的参数叫做嘴巴开合。

米格尔：我明白了。你通过控制嘴巴的开合使得控制发音成为可能。

Kanru：让我们切换到嘴巴开口参数。你会发现它与其他参数不同，因为即使在初始状态下，你也可以在背景中看到默认的嘴巴开口可视化。

[Kanru 添加了一个参数面板，切换到嘴部张开，并放大面板以确保 Miguel 能清楚地看到背景中的参数]

米格尔：让我看看。加利福尼亚，我来了。它跟着元音。

Kanru: 假设我们想让加利福尼亚的“ia”听起来更放松。你可以通过张力参数来做到这一点，但这并不能解决发音本身的问题。现在，让我在这个音符上减少嘴巴的开口。

米格尔：嗯。如果你让它更极端一些呢？

Kanru：让我试试。你看，它逐渐变成一个“u”。我们也试试相反的。

米格尔：是的，也许这有点过分。

Kanru：这个参数的另一个用途是强调某些特定的元音过渡。例如“here I”。假设我想让它更像“here ri”。我可以在“I”之前放一个颤音。

米格尔：这听起来更有活力。这是人们在唱歌时无意识地会做的事情之一。

Kanru：我个人觉得很有趣的是，即使你没有修改嘴巴开口参数，在使用这个参数这么多之后，你也会通过观察它生成的曲线学到一些关于人们如何唱歌的东西。

米格尔：有了这个见解，你还想模拟人类歌唱的不完美。

Kanru：我们希望 Synthesizer V 能够像人类一样唱歌，包括那种不完美和不可预测性。但这要看用户的要求，用户应该有选择权来引导生成的方向。你知道，版本 2 背后的哲学，动态和控制。

米格尔：现在我们已经看到了 Synthesizer V Studio 2 中的所有主要新功能。看起来它们将改变我们在软件中处理人声的方式。你有什么推荐的工作流程，让观众习惯这些新功能吗？

与 Kevin、Ayame 和 Felicia 的工作流程演示

Kanru：我认为最重要的两个功能是声乐模式和 AI 重录。你首先使用声乐模式来设定整首歌的基调。然后使用 AI 重录来增强动态，并修正你不喜欢的特定部分。

米格尔：到目前为止，我们一直在和娜塔莉进行演示。也许你可以给我们展示一下用不同的声音是如何工作的？

Kanru：当然。还记得为 Sheena 准备的民谣演示吗？我会告诉你如何用这些 2.0 功能重新制作它。

[Kanru 正在加载项目]

[接下来主要是 Kanru 解释这个项目中的声乐模式和 AI 重录。]

[我们将首先使用凯文作为第一轨道，绫芽作为第二轨道。然后我们将把第一轨道更改为菲莉西亚作为另一个例子。]

[Miguel 将提供评论和调整请求，以保持演示的流畅性。]

[在凯文和绫美询问菲莉西亚之后]

Kanru：如果你对 Synthesizer V 有经验，你可能能够找出问题所在。如果是音高问题，你可以使用智能音高控制；如果是节奏问题，你可以使用音素面板。但即使你不理解这些，AI Retakes 始终可以作为一个灵活的解决方案。它以一种语言无法描述的方式解决问题。

结束语

米格尔：那么，Kanru。我们已经看到了很多新功能。在我们结束之前，让我问一下我们的观众。Synthesizer V Studio 的 2.0 版本什么时候会发布，价格是多少？

Kanru：你知道，我真的希望这尽快发生。但是我们谈论的是对产品的巨大变化，而这个版本仍在进行中。

米格尔：所以它仍在开发、测试中，并且可能会有所更改。

Kanru：我们已经快 5 年没有这样的升级了。需要时间向我们的用户和合作伙伴传达所有这些变化。这就是为什么我们决定首先在今天的活动中介绍这些功能。

米格尔：但它很快就会来，对吧？

Kanru：这就是我们的使命。当准备好时，我们会再发布另一个公告。

[淡出]

---

后记

米格尔：感谢您参加我们关于 Synthesizer V Studio 2 新功能的介绍。总的来说，我们正在开发这个第二版的 Synthesizer V Studio，它将拥有更好的音质，渲染速度提高 300%，并且还将推出重新设计的声乐模式、AI 重录、智能音高控制等新功能。请在 NAMM 2025 与 Dreamtonics 团队见面，并尝试这个正在开发中的版本。请关注我们，以便不错过任何即将发布的细节，再次感谢您，下个视频见。