AI能造就音乐明星吗？ - 国际资讯(世良情感网)

深度伪造（Deepfake）的语音克隆技术已经引起了全球范围内的广泛关注。虽然这背后的技术并不新颖，但是其精度和可用性已得到快速发展，基于人工智能合成的声音在今年迅速传播。微软声称，他们的Vall-E软件仅需一段三秒的音频就可以模仿一个人的声音。虽然Vall-E还没有向公众发布，但很多其他具有类似功能的强大软件已唾手可得。

今年一月，初创公司ElevenLabs发布了一个强大的在线语音生成器。名人的虚假声音立即涌入社交媒体。在TikTok，泰勒·斯威夫特（Taylor Swift）的粉丝们合成了一条来自泰勒的、逼真的的语音信息（“嗨！我是泰勒，如果你今天过得不好，只要知道你是被爱着的”）。与之相反的是，4chan网站的恶意用户生成了名人说恶毒话语的虚假音频剪辑。

今年四月份，一首名为“心在我袖口”（Heart on My Sleeve）的歌曲成为了第一首声音克隆热门歌曲，获得了数百万次的观看。据称它是由一个名为“鬼影作家”（Ghostwriter）的神秘人物制作，这是一首借由两位加拿大超级巨星德雷克（Drake）与威肯（The Weeknd）的声音，AI生成的合唱歌曲。

这首歌的歌词像是对两位歌手作品的拙劣模仿。假的德雷克说唱道，“我把我的心放在袖口上，背上插着一把刀，这是怎么回事？”显然，我们也一样感到困惑。但是这首歌曲的声音逼真程度令人印象深刻。有人甚至猜测整件事是两位歌手假扮成AI自导自演的宣传噱头。

“心在我袖口”遭到歌手所属的环球唱片集团的投诉，现已从各流媒体平台上下架，尽管这首歌还是很容易在网上找到。声音克隆被笼罩在模糊的法律阴霾中。歌手声音的音色在法律上没有与他们所唱的歌词和旋律一样受到同等的保护。他们的声音可能是他们最重要的资产，但其声波频率不属于他们的版权。我似乎可以根据不同的用途，自由地制作，或尝试地制作我最喜欢的歌手不可模仿的音调AI模型。

因此，我决定深度伪造汤姆·威兹（Tom Waits），这位嘶哑的主力歌手自从我上学以来就一直占据着我的音乐生活。

在YouTube上，我发现了一位戴着棒球帽的美国技术专家罗伯托·尼克森（Roberto Nickson），他用软件生成了坎耶·韦斯特（Kanye West）的声音，惟妙惟肖。尼克森是坎耶的粉丝，所以他选择了这位说唱歌手的声音，坎耶也是他当时能找到的最好的声音模型。

他的声音克隆引发了伦理问题争论。尼克森不是非裔美国人，他因使用黑人声音而受到网友们的批评。尼克森称，“有很多评论称我的作品是数字黑脸。我试图向人们解释，坎耶的声音是当时唯一可用的好模型。”

在他的YouTube频道上，有教人如何制作名人声音的指南。由此我发现了Voicify.ai网站，这个网站可以为用户创建声音。Voicify由南安普顿（Southampton University）大学一位20岁的计算机科学专业学生阿迪蒂亚·班萨尔（Aditya Bansal）创建。他注意到AI翻唱歌曲正在蓬勃发展，并在一周内建立了自己的网站——速度是淘金热中至关重要的因素。

Voicify的收费标准从8.99英镑（80人民币）到89.99英镑（793人民币）不等，足以证明这是一个有利可图的赛道。班萨尔谈到Voicify的用户，“最初基本上来自美国/英国，现在我已经看到它正在走向全球。”唱片公司也联系过他，想要为他们的艺人制作样带模型，来作为完整录制前的草稿。

AI制作的声音可能面临法律的阻碍。美国唱片业协会（The Recording Industry Association of America）认为，算法语音训练侵犯了艺术家的版权，因为训练过程涉及艺术家的唱片，就像我使用了《雨狗》（Rain Dogs）这首歌一样。

伦敦政治经济学院的卢克·麦克唐纳（Luke McDonagh）博士认为：“如果我们确实有一起法庭案件，那么问题就在于你是否试图从中获利，或者这是你为合法目的而做的病毒式恶搞？如果你是为了赚钱而这样做，那么法律将阻止你，因为你本质上是在免费地利用别人的品牌形象、声音。”

我从ChatGPT上获得歌词，又在AI音乐生成器Boomy上获得曲调。据称，Boomy自2019年在加利福尼亚州推出以来，已经生成了超过1500万首歌曲，相当于全球录制音乐的14%。本月早些时候，据报道， Spotify从其目录中清除了数万首Boomy制作的歌曲，因为有指控称机器人涌入该网站来人为提高流量。

我添加到Boomy的歌曲在它庞大的歌曲库中并不出色。要创建一首曲目，首先需要选择一个风格，例如“低保真”或“全球流行”，然后设置基本参数，例如鼓声和节奏。没有选择知名艺术家风格的选项。在调整这段音乐以使其尽可能爵士化之后，我最终得到了一个奇怪的节奏驱动的东西，带有弹性低音。

制作AI歌曲需要音乐技能。语音克隆需要真实的人来唱曲调或说唱歌词。上个月，一支名为Breezer的英国摇滚乐队以“Aisis”为名发布了一张想象中的Oasis专辑，他们使用了语音克隆来复制利亚姆·加拉格（Liam Gallagher）的声音，但是他们自己写作和演唱了这些歌曲。真正的加拉格在听到后发推文说，“我听起来很棒”。

艺术家们对AI语音克隆的意见不一。致力于技术的电子音乐家格莱姆斯（Grimes）正在为粉丝创建自己的语音模仿软件，只要粉丝与她分享版税收入。相比之下，老牌摇滚歌星史汀（Sting）最近则呼吁大家“保卫我们的人力资本免受AI侵害”。德雷克在Instagram上写道：“这是AI的最后一根稻草”，以表达他对自己的声音被用来做AI生成歌曲的不满。

在录制音乐的历史上，几乎每个技术发展阶段都带来了对未来的悲观情绪。20世纪20年代广播的兴起引发了对现场音乐被破坏的担忧。20世纪80年代鼓机的普及引起了鼓手的紧张，他们担心自己会在废品堆上发出金属声和终止声。在这两种情况下，这些预测都没有被证明是正确的。

流行音乐是过去一个世纪在声音上消耗最多想象力资源的媒介。自从1925年录音室采用电动麦克风以来，歌手就被视为唱片中的焦点，就像好莱坞明星在屏幕上特写一样。他们的声音试图刻进我们的脑海。然而，著名的歌手与大众距离太远了，他们隐匿在名人的面具之后，形成了亲密性与不可及性相结合的复杂形象。

这就是为什么流行歌星拥有庞大的社交媒体追随者的原因。这也是为什么他们的粉丝目前正在疯狂使用AI语音生成技术的原因。能够让偶像唱歌或说话的能力将流行音乐中亲密感的幻觉提升到了另一个等级。但是，这些拥有世界上最著名的声音的人可以放心。尽管AI具有深度伪造技术，但任何成功的模仿所缺少的成分仍然是最核心的传统艺能——至少目前是这样。