音乐|微软亚洲研究院谭旭AI音乐，技术与艺术的碰撞( 四 ) rain|uzi

文章插图

3歌曲合成
针对歌声合成，我们做了 HiFiSinger 的工作。事实上，和说话的声音相比，歌声需要更高的保真度来传达表现力和情感。那么怎么实现高保真度呢？一个方面是提高声音质量，另一方面是提高声音的采样率。
之前的工作大都关注在提高声音质量，而我们考虑的是提高采样率。我们知道人耳对频率的感知范围为20到20kHz，如果采用16kHz或者24kHz的采样率的话，根据奈奎斯特-香农采样定理，它只能覆盖8kHz或者12kHz的频带范围，并不能很好地覆盖人耳的听觉范围。因此我们将采样率从24kHz升到48kHz来进行建模。

文章插图

整个歌声合成的流程采用了声学模型和声码器级联的方式，如下图（右）所示。但是升级到48kHz的采样率有两个挑战：
1）48kHz在频谱维度有更宽的频谱，这给声学模型的建模带来了挑战；
2）48kHz在时间维度上有更长的语音采样点，这给声码器的建模带来了挑战。

文章插图

所以，我们分别提出了针对声学模型的 Sub-frequency GAN 和针对声码器的 Multi-length GAN来解决上述问题。

文章插图

文章插图

实验结果显示 HiFiSinger 相比之前的基线方法取得了明显的音质提升，表明了我们的方法对高采样率建模的有效性。同时采用48kHz采样率的 HiFiSinger 模型甚至超过了24kHz的录音音质，也证明了高采样率的优势。

文章插图

以上就是我们在 AI 音乐生成方面开展的一系列研究工作。目前 AI 音乐生成仍存在一些研究挑战，包括以下几个方面：
1）对音乐结构的理解有助于音乐的生成以及编排；
2）音乐的情感以及风格的建模；
3）交互式的音乐创作；
4）对于生成音乐原创性的保证等。

文章插图

文章插图

微软亚洲研究院机器学习组一直致力于 AI 音乐的研究，研究课题包括词曲写作、伴奏编曲、歌声合成、音乐理解等。我们即将推出 AI 音乐开源项目 Muzic，涵盖了我们在 AI 音乐的一系列研究工作，敬请期待。
AI 音乐研究项目主页：
https://www.microsoft.com/en-us/research/project/ai-music/
Muzic 开源项目页面（页面将于近期公开）：
https://github.com/microsoft/muzic
论文列表：
[1] SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint, AAAI 2021, https://arxiv.org/pdf/2012.05168.pdf
[2] DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling, ACL 2021, https://arxiv.org/pdf/2107.01875.pdf
[3] MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training, ACL 2021, https://arxiv.org/pdf/2106.05630.pdf
[4] PopMAG: Pop Music Accompaniment Generation, ACM MM 2020, https://arxiv.org/pdf/2008.07703.pdf
[5] HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis, arXiv 2021, https://arxiv.org/pdf/2009.01776.pdf
https://www.microsoft.com/en-us/research/project/ai-music/
https://www.bilibili.com/video/BV1Kg411G78m
https://github.com/microsoft/muzic
由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道，请将“AI科技评论”设为星标账号在看”。