音乐|微软亚洲研究院谭旭AI音乐，技术与艺术的碰撞 rain|uzi

编者按：日前，在2021全球人工智能技术大会（GAITC）的“当 AI 与艺术相遇”专题论坛上，微软亚洲研究院主管研究员谭旭发表了题为《基于深度学习的流行音乐创作》的演讲。该分享从分析流行音乐的工业化制作流程切入，介绍了深度学习是如何辅助流行音乐的创作，微软亚洲研究院在 AI 音乐创作领域的一系列研究成果，以及当前AI音乐生成所面临的研究挑战等。本文为此次演讲内容的完整整理，希望可以给大家在AI与艺术相互结合的研究方向上带来更多启发。
微软亚洲研究院主管研究员谭旭：
这次报告的题目是《基于深度学习的流行音乐创作》，我们将详细探讨如何将深度学习应用到流行音乐的创作过程中。我们先来看一下流行音乐的创作流程是什么样的。
什么是流行音乐？按照字面的理解就是流行的音乐，实际上流行音乐我们通常指的是商品音乐，也就是通俗、大众、喜闻乐见，又能商品化制作的音乐。因此，这类音乐具有固定的制作流程，包括词曲创作、伴奏编曲、录制乐器声音和人声、进行混音，最后进入到唱片制作等环节。而这是典型的工业制作流程，我们需要将其进行抽象以便在音乐创作中充分利用深度学习技术。
经过抽象我们得到了以下三个环节:
1）曲谱生成，包括词曲和伴奏编曲的生成；
2）演奏生成，曲谱到声音需要经过演奏的过程，相同的曲谱经过不同的演奏技巧演奏可以有非常大的差别，所以我们要基于曲谱生成演奏技巧；
3）声音合成，根据曲谱和演奏技巧合成音乐声音，包括人声和乐器声音的合成。
有了这个抽象以后，深度学习技术尤其是内容生成技术就可以应用到流行音乐的创作中了。其实音乐不只是艺术，它还包括逻辑和规则，而这些都是深度学习所擅长的。如果有足够的数据、模型容量和计算力，深度学习就能产生比较好的效果。所以我们可以把上述流程对应到典型的深度学习应用任务上。曲谱和演奏技巧的生成，可以对应自然语言处理里的语言生成，因为它们就是用 symbolic token 符号表示，而声音生成则可以对应到语音合成，这样我们就能借鉴这些成熟领域的深度学习技术来帮助音乐生成了。

文章插图

过去一段时间，微软亚洲研究院在 AI 音乐创作方向上开展了一系列研究工作，包括 Song Writing（词曲写作）、Arrangement（伴奏生成）、Singing Voice Synthesis（歌声合成）等。
在词曲写作方面又涵盖了：
1) SongMASS，歌词到旋律以及旋律到歌词的生成；
2) StructMelody，利用音乐结构信息生成旋律；
3) DeepRapper，Rap歌词押韵和节奏的生成；
4) MusicBERT，通过大规模音乐数据学习音乐表征以更好的理解音乐，对音乐的风格、情感、曲式结构的理解。
在伴奏编曲方面有 PopMAG 伴奏生成。在歌声合成方面有 HiFiSinger 高保真的歌声合成。接下来，我们将依次介绍这些工作。

文章插图

1词曲写作
在词曲写作方面，我们探讨了歌词生成旋律以及旋律生成歌词两个任务，并分析了这两个任务的特点：
1.要保证生成的歌词和旋律本身具有歌词性和旋律性。这个方面靠大量的数据做语言模型的建模可以做得还不错；
2.要保证歌词和旋律的匹配度。按照传统的术语讲就是腔词关系（腔就是旋律、词就是歌词），好的腔词关系能互相促进表达，而不好的腔词关系会导致腔害于词、词害于腔。
因此，建模歌词和旋律的关系是一个重点。要建模好关系，很重要的一个因素是要有数据，但往往歌词和旋律的配对数据比较缺乏。除此之外，歌词和旋律的连接也比较弱，一句歌词可以配不同的旋律，一句旋律也可以配不同的歌词。类比其它序列到序列学习的任务，比如语音识别、语音合成、机器翻译等，我们可以发现源序列和目标序列都有很强的对应关系。在语音识别中，一个语音片段会严格对应一个字。所以歌词和旋律这种弱的连接关系更加需要数据才能学得好，或者我们可以探索不用纯依赖数据的方发去学习这种关系。