音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞( 四 )


文章插图

3歌曲合成
针对歌声合成,我们做了 HiFiSinger 的工作。事实上,和说话的声音相比,歌声需要更高的保真度来传达表现力和情感。那么怎么实现高保真度呢?一个方面是提高声音质量,另一方面是提高声音的采样率。
之前的工作大都关注在提高声音质量,而我们考虑的是提高采样率。我们知道人耳对频率的感知范围为20到20kHz,如果采用16kHz或者24kHz的采样率的话,根据奈奎斯特-香农采样定理,它只能覆盖8kHz或者12kHz的频带范围,并不能很好地覆盖人耳的听觉范围。因此我们将采样率从24kHz升到48kHz来进行建模。
音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞
文章插图

整个歌声合成的流程采用了声学模型和声码器级联的方式,如下图(右)所示。但是升级到48kHz的采样率有两个挑战:
1)48kHz在频谱维度有更宽的频谱,这给声学模型的建模带来了挑战;
2)48kHz在时间维度上有更长的语音采样点,这给声码器的建模带来了挑战。
音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞
文章插图

所以,我们分别提出了针对声学模型的 Sub-frequency GAN 和针对声码器的 Multi-length GAN来解决上述问题。
音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞
文章插图

音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞
文章插图

实验结果显示 HiFiSinger 相比之前的基线方法取得了明显的音质提升,表明了我们的方法对高采样率建模的有效性。同时采用48kHz采样率的 HiFiSinger 模型甚至超过了24kHz的录音音质,也证明了高采样率的优势。
音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞
文章插图

以上就是我们在 AI 音乐生成方面开展的一系列研究工作。目前 AI 音乐生成仍存在一些研究挑战,包括以下几个方面:
1)对音乐结构的理解有助于音乐的生成以及编排;
2)音乐的情感以及风格的建模;
3)交互式的音乐创作;
4)对于生成音乐原创性的保证等。
音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞
文章插图

音乐|微软亚洲研究院谭旭AI音乐,技术与艺术的碰撞
文章插图

微软亚洲研究院机器学习组一直致力于 AI 音乐的研究,研究课题包括词曲写作、伴奏编曲、歌声合成、音乐理解等。我们即将推出 AI 音乐开源项目 Muzic,涵盖了我们在 AI 音乐的一系列研究工作,敬请期待。
AI 音乐研究项目主页:
https://www.microsoft.com/en-us/research/project/ai-music/
Muzic 开源项目页面(页面将于近期公开):
https://github.com/microsoft/muzic
论文列表:
[1] SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint, AAAI 2021, https://arxiv.org/pdf/2012.05168.pdf
[2] DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling, ACL 2021, https://arxiv.org/pdf/2107.01875.pdf
[3] MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training, ACL 2021, https://arxiv.org/pdf/2106.05630.pdf
[4] PopMAG: Pop Music Accompaniment Generation, ACM MM 2020, https://arxiv.org/pdf/2008.07703.pdf
[5] HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis, arXiv 2021, https://arxiv.org/pdf/2009.01776.pdf
https://www.microsoft.com/en-us/research/project/ai-music/
https://www.bilibili.com/video/BV1Kg411G78m
https://github.com/microsoft/muzic
由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号在看”。