工作人员: 米格尔(主持人),侃如(演讲者)
目标受众:
P主要:已经看到我们 2.0 预告片的现有用户,感到兴奋并想了解更多,但无法参加 NAMM。
次要目标:早期了解 Synthesizer V 的新用户,或者在展会期间或之后刚刚了解我们的用户,他们可能对我们的产品/品牌感兴趣但持怀疑态度。
目的:
提升对即将到来的 2.0 的兴奋感,围绕这个话题制造一些热议。
为我们的品牌增添人性化元素,提高其可信度。
提高以下预售活动的销售转化率。
教育现有用户关于我们选择移除某些功能的原因。
教育现有用户关于新工作流程的信息。防止他们在获得新版本后试图坚持使用旧工作流程,并因此感到失望,因为旧工作流程将不再有效。
不要提及:
以下预售活动。
发布日期和定价。
关于第三方 VDB 的具体信息。
米格尔:嗨!今天我们将向您展示我们在 Synthesizer V Studio 2 版本中一些令人兴奋的发展。我是米格尔,Dreamtonics 的产品专家。
Kanru:我是 Kanru,Dreamtonics 的创始人。告诉你,在你观看这个视频的时候,我们已经在 NAMM 展会上,你将能够试用这个正在开发中的 2.0 版本。
米格尔:对于那些无法参加活动的人,以及那些迫不及待想要了解更多的人,我们录制了这个视频,以便你们可以与我们一起虚拟体验!
Kanru:现在进入主题。米格尔,你能想象自从我们推出 Synthesizer V Studio 1 已经快五年了吗?
米格尔:是的。那是在 2020 年 6 月吗?你做了这样的演示。那是从 Synthesizer V 编辑器到 Synthesizer V 工作室的过渡。实际上,我最近才了解到 Synthesizer V 中的 V 不仅代表人声,还意味着 5。那么在此之前还有更多版本吗?
(显示旧版发布演示视频的画中画)
Kanru:在某种意义上,确实如此。你知道,5 是一个神奇的数字,它代表了完善一个产品所需的版本数量。有几个很好的例子,比如操作系统 System V、火箭 Saturn V,甚至是 Windows XP。
米格尔:所以在 2018 年 Synthesizer V Editor 发布时,你已经经历了 4 个未能上市的版本。
(显示 Synthesizer V 编辑器的屏幕截图)
Kanru:是的,它们并没有被命名为合成器 1、2、3、4。那是十年前的事了,在深度学习之前。那时候它是一个采样器,自那时起事情发生了根本性的变化。
米格尔:谈到变化。请允许我跳到大问题。即将发布的 Synthesizer V Studio 2 有哪些变化?
Kanru:四个词,更大、更好、更快、更强。你知道我希望我能说出来,但对于软件来说,做到更难是困难的 : )
米格尔:好的,先告诉我声音质量。版本 2 会有多好?
Kanru: 好吧,我们达到了人类水平的自然性。
米格尔:听起来很棒。但是,你需要稍微解释一下这些话。我知道你在一年半前的 ADC 会议上已经谈过这个。实际上,你演讲的标题是“超越人类水平自然性的歌唱合成:不是你想的那样”。
(显示 ADC 演讲视频缩略图)
Kanru:哈哈,所以你已经做了研究。这个讲座是关于我们当时进行的一系列听力测试。我们始终遵循测试驱动的研究与开发。当我们设计出一个被认为足够有前景的新算法时,我们会将其送出进行听力测试。基本上,聚集一组有音乐背景的 50 名听众,让他们对合成样本与真实样本进行评分,样本以随机顺序呈现。
(展示一张来自 ADC 演讲的幻灯片)
米格尔:所以这次谈话是关于你第一次让人们对合成样本的评价高于真实样本。
Kanru:这就是演讲的第一部分。但正如标题所说,这并不是你想的那样。我们进行了定性研究作为后续。结果显示,或许不必多说,人们是复杂的听众。有些人认为流畅、一致的声音是自然的。有些人则更喜欢不那么完美的声音。我们问他们哪个听起来更自然,但他们的选择实际上是关于偏好的。
米格尔:这是否意味着我们的测试驱动研发有问题?这项研究的主要结论是什么?
Kanru:嗯,起初我很高兴,因为至少在数字方面,我们达到了声音合成的圣杯。这是我们可以用于营销的一个强大事实!然后我感到困扰,因为我们进入了这种哲学斗争的阶段,如何可能在结果无法轻易衡量的情况下改善某些东西。
此外,至少根据数字来看,击败人类的系统相当庞大。它是一个仅在服务器上运行的研究原型,而不是在笔记本电脑上运行的 Synthesizer V Studio。
米格尔:所以那是为了“更大”和“更好”,来自“更大、更好、更快、更强”。你成功让那个笨重的原型在小型机器上运行了吗?我想你在那之后的某个时候有了顿悟。
Kanru:这只是故事的一部分。在 Synthesizer V Studio 的版本 1 和版本 2 之间,我们进行了近 100 轮听力测试。我逐渐意识到这些测试的局限性。我们向听众呈现的是干声,没有上下文,但音乐就是关于上下文的。如果你让一位爵士歌手翻唱 K-pop,显然听起来不会自然。
米格尔:听起来是个很好的理由,在这些测试之后审查和调整我们的目标。
Kanru:确实。人类级自然性的答案实际上超出了算法本身。我得出的结论是,我们需要在版本 2 上做两件事:一是更好的动态,二是更多的控制。
米格尔:动态是我们一直以来追求的目标。这一切始于我们在 1.7 版本中添加的 AI 重拍功能,对吧?
(显示 SV1 中 AI 重拍面板的截图)
Kanru: 是的。听力测试只展示了一种唱歌方式,但同一句话应该有无数种唱法,有些更好,有些更差。
米格尔:所以,你可以尝试更多 人性化的 重拍,并选择最佳的一个。控制怎么样?
Kanru:控制是为了告诉机器你的音乐的上下文,这样人声才能与编曲和你正在使用的风格相协调。
米格尔:这听起来像是另一个功能的角色,声乐模式。我们可以期待声乐模式的改进吗?
(显示 SV1 中 Vocal Modes 功能的屏幕截图)
Kanru:是的,不仅仅是声乐模式。Synthesizer V 不是一个单向的过程。就像与真实歌手合作一样,这涉及到反复和互动的调整。你先输入音符并听到它们,然后你会做一些更改,再次听到它。当我们设计这样的系统时,我们不仅应该关心最终结果,还应该关注这个过程本身。
米格尔:我记得 Synthesizer V Studio 发布的一个亮点,就是引入了实时渲染系统。:可以在听到之前看到变化。
Kanru:我们坚持这种设计理念。无论它简化到什么程度,关于上下文的概念都需要从某个地方输入到机器中。因此,我们并不是想让软件接管一切。我们试图使控制尽可能快速和直观。你所改变的应该是你所看到的,而你所看到的应该是你所听到的。
质量与速度演示
米格尔:我对直觉意味着什么有一个大致的了解。现在,你能告诉我们它有多快吗?
Kanru:300%。这就是它与版本 1 相比的速度。
米格尔:好的。300%的渲染速度。在我问你这怎么可能之前,你得先给我们看看现在的效果。
Kanru:所以这是 Natalie 的一个演示。让我先给你听听它在版本 1 中的声音。
[Kanru 在 Synthesizer V Studio Pro 中打开 Natalie “California Sunshine”项目,等待其渲染,并稍微播放了一下]
米格尔:所以那是娜塔莉在 Synthesizer V Studio 1 上。
Kanru:这是在 Synthesizer V Studio 2 上的新 Natalie。
[Kanru 在版本 2 中打开相同的项目,等待其渲染,并播放回放]。
米格尔: [对演示的评论.] 你能试着编辑一下吗?
Kanru: 当然。让我改几个注释,这样你就能看到它重新渲染的速度。
[Kanru 在几个音符上更改了歌词“我乘火车去 NAMM 二零二五”,并播放了它。]
米格尔:那怎么可能?是在云端,还是在 GPU 上,或者其他什么地方?
Kanru:实际上我们仍然完全离线并基于 CPU。我们进行了很多优化,最重要的是充分利用现代处理器上的核心。
[Kanru 画出了一块白板,上面有一些类似于 Synthesizer V Studio 排列界面的图画]
[Kanru 在每条轨道上放置一个磁性针]
Kanru:我们在之前的版本中确实有多线程功能,基本上是将一个 CPU 核心分配给每个音轨或每组音符。
[Kanru 移除所有别针,除了一个]
然而,由于你通常一次只处理一条轨道,这导致资源的巨大浪费。
米格尔:所以它现在即使在你只处理一个轨道时也会使用所有核心吗?
[Kanru 在一个轨道内移动所有引脚]
Kanru:是的。如果你想知道当你的 CPU 只有两个核心时是否会有速度提升,仍然会因为我们做的其他优化而增加 50%。
米格尔:令人印象深刻。这将使尝试不同的声音表达变得更加顺畅。说到表达,我们可以通过这个新版本的 Synthesizer V 实现什么样的控制?
|
|
|
|
|
米格尔:有了这个见解,你还想模拟人类歌唱的不完美。
Kanru:我们希望 Synthesizer V 能够像人类一样唱歌,包括那种不完美和不可预测性。但这要看用户的要求,用户应该有选择权来引导生成的方向。你知道,版本 2 背后的哲学,动态和控制。
米格尔:现在我们已经看到了 Synthesizer V Studio 2 中的所有主要新功能。看起来它们将改变我们在软件中处理人声的方式。你有什么推荐的工作流程,让观众习惯这些新功能吗?
与 Kevin、Ayame 和 Felicia 的工作流程演示
Kanru:我认为最重要的两个功能是声乐模式和 AI 重录。你首先使用声乐模式来设定整首歌的基调。然后使用 AI 重录来增强动态,并修正你不喜欢的特定部分。
米格尔:到目前为止,我们一直在和娜塔莉进行演示。也许你可以给我们展示一下用不同的声音是如何工作的?
Kanru:当然。还记得为 Sheena 准备的民谣演示吗?我会告诉你如何用这些 2.0 功能重新制作它。
[Kanru 正在加载项目]
[接下来主要是 Kanru 解释这个项目中的声乐模式和 AI 重录。]
[我们将首先使用凯文作为第一轨道,绫芽作为第二轨道。然后我们将把第一轨道更改为菲莉西亚作为另一个例子。]
[Miguel 将提供评论和调整请求,以保持演示的流畅性。]
[在凯文和绫美询问菲莉西亚之后]
Kanru:如果你对 Synthesizer V 有经验,你可能能够找出问题所在。如果是音高问题,你可以使用智能音高控制;如果是节奏问题,你可以使用音素面板。但即使你不理解这些,AI Retakes 始终可以作为一个灵活的解决方案。它以一种语言无法描述的方式解决问题。
结束语
米格尔:那么,Kanru。我们已经看到了很多新功能。在我们结束之前,让我问一下我们的观众。Synthesizer V Studio 的 2.0 版本什么时候会发布,价格是多少?
Kanru:你知道,我真的希望这尽快发生。但是我们谈论的是对产品的巨大变化,而这个版本仍在进行中。
米格尔:所以它仍在开发、测试中,并且可能会有所更改。
Kanru:我们已经快 5 年没有这样的升级了。需要时间向我们的用户和合作伙伴传达所有这些变化。这就是为什么我们决定首先在今天的活动中介绍这些功能。
米格尔:但它很快就会来,对吧?
Kanru:这就是我们的使命。当准备好时,我们会再发布另一个公告。
[淡出]
---
后记
米格尔:感谢您参加我们关于 Synthesizer V Studio 2 新功能的介绍。总的来说,我们正在开发这个第二版的 Synthesizer V Studio,它将拥有更好的音质,渲染速度提高 300%,并且还将推出重新设计的声乐模式、AI 重录、智能音高控制等新功能。请在 NAMM 2025 与 Dreamtonics 团队见面,并尝试这个正在开发中的版本。请关注我们,以便不错过任何即将发布的细节,再次感谢您,下个视频见。