Meta公司正在通过使用人工智能,帮助艺术家和音频设计师更轻松地制作音频。Facebook的母公司发布了一个名为AudioCraft的开源工具包,它将三种生成式人工智能模型结合在一起,可以通过文本描述生成声音。其中,AudioGen和MusicGen分别用于生成音效和音乐,而EnCodec则用于压缩声音以获得更高质量的结果。这意味着音乐家和音频设计师现在可能只需要AI的帮助,就能完成创作音乐所需的一切。
这个发布包含了预先训练好的AudioGen模型,适用于那些希望快速上手的人。改进者可以访问整个AudioCraft的代码和模型权重。Meta表示,开源的初衷是为专业人员和研究人员提供使用自己的数据进行模型训练的机会。所有预训练模型都使用公共或Meta拥有的材料,因此不会引发版权纠纷的可能性。
Meta公司将AudioCraft描述为一种使生成式AI音频更加简单和易于使用的方式。虽然AI生成的图像和文本已经非常流行,但Meta认为音频领域还略显滞后。现有的项目往往非常复杂且封闭。理论上,这个新的工具包为创作者提供了塑造自己的模型和扩展可能性的机会。
当然,AudioCraft并不是市场上唯一一款开源的文本到音频AI工具。今年五月,Google公司也发布了他们的MusicLM模型。Meta公司的系统并不是为普通用户设计的,仍然需要技术娴熟的人才能够正确使用AudioCraft。这更多地是为了研究和开发而设计的,Meta公司表示他们的开发人员也在致力于提高这些模型的性能和控制方法,以扩大其潜力。
即使在目前的状态下,AudioCraft也预示着人工智能在音乐中的未来作用。虽然我们不会看到艺术家完全将AI取代自己的创造力(即使像Holly Herndon这样的实验者仍然高度参与其中),但他们正在获得更多的工具,可以轻松地创建伴奏、采样和其他元素。