AI音乐大模型AITabs：自动生成歌词、和弦、节拍，旋律等

AI确实可以改变世界。对于一个音乐爱好者，AI能帮助做什么呢？其实上上目前AI确实已经能做很多事情了，这就是今天要介绍的一个大模型AITabs。AITabs是由专业人士创建的基于Transformer的混合多模态模型，使用各种Transformer模型解决音乐信息检索领域各类专业问题，依靠模型生成相应的相互影响的信息依赖关系。这是一个专注于音乐的人工智能驱动的多模式项目。可以根据任何歌曲，自动生成其和弦、节拍、歌词、旋律和标签。

技术架构

其底层的技术架构如下：

U-Net用于从原始音视频源中分离出网络模型用来进行各类任务，包括Pitch-Net, Beat-Net, Chord-Net和Segment-Net均为基于Transformer的专业大模型。除了建立频率和时间之间的相关性之外，最重要的是可以建立不同网络之间的相互影响。

整个人工智能驱动的流程是在aitabs.py，而各种网络结构模型可以参考model文件夹。

U-Net和Segment-Net使用音频的stft频谱作为输入。Beat-Net使用鼓、贝司和其他乐器的三个频谱图作为输入，Chord-Net使用背景音乐的一张频谱图。

功能

和弦：音乐和弦检测，包括大调、小调、7、maj7、min7、6、m6、sus2、sus4、5、倒和弦。确定歌曲的调子。

节拍：音乐节拍、强拍检测和节奏 (BPM)跟踪

音高：跟踪音轨中旋律的音高。

音乐结构：音乐片段边界和标签，包括前奏、主歌、副歌、桥段等。

歌词：音乐歌词识别和自动歌词到音频对齐，使用ASR（耳语）来识别声乐轨道的歌词。歌词和音频的对齐是通过微调wav2vec2预训练模型来实现的。目前支持英语、中文、西班牙语、葡萄牙语、俄语、日语、韩语、阿拉伯语等数十种语言。

AI Tabs：使用和弦、节拍、音乐结构信息、歌词、节奏等生成可播放的乐谱，包括和弦图和六线五线谱，支持和弦、节奏、歌词的编辑功能。

其他：音源分离、速度调节、变调等。

模型和试用

模型目前在Github（github：/AIAudioLab/AITabs）开放了源代码，为Python编写，目前不确定是不是可以完整运行的代码（后续有空可以可以研究一下）。另外提供了网站，可在其站点（lamucal.ai）上试用基本功能，虫虫试了一下功能都是正常而且强大。

只需通过其搜索框搜索歌曲的名称，比如搜索刘欢的《好汉歌》

然后选择其结果（油管来源）中对应的歌就会自动启动AI模型生成各种音乐元素，还可以选择生成歌词。

最后就会给出一个综合界面，可以选择旋律和Tabs标签页显示相关内容，其右上角有个V选择，可以选择吉他，钢琴等乐器种类生成对应乐器的乐谱表示形势。最右边为播放按钮、速度按钮和其他功能按钮（有些需要下载其APP才能用）

有试了下其他歌：

是否要生成歌词和旋律模式：

目前发现一个问题就是由于歌曲来自油管，可以进行AI生成操作，但是不是播放，使用特殊方式可以播放时，歌词、曲谱都是和播放同步进行的，对于不懂乐谱和乐器同学，那他来当卡拉ok看歌词也是棒棒的。

最后试了一首老歌《红梅赞》，播放一下，特别选了一个老外来唱，歌词也是跟上调子的！

总结

AI改变世界，主要是对行业和专业领域的革命性革新，而不仅仅是对个话、生成一个图片，生成一个视频。本文提到这个模型就是在音乐领域的突破，确实比较震撼，希望各个专业领域类似的模型都能百花齐放，一起迎接AI的春天。

世良情感网

AI音乐大模型AITabs：自动生成歌词、和弦、节拍，旋律等

安全运维得看我