我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?

丰色发自凹非寺量子位报道|公众号QbitAI
又又接新活了——
这次谷歌用它搞了一个 。
话不多说 , 先让它给大家来几段freestyle(原视频见文末地址):
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片

嗯 , 动作还挺美观 , 各种风格也驾驭住了 。
看着我都想跟着来一段 。
你pick哪个?
而这个AI也凭借着对的深刻理解 , 打败了3个同类模型取得SOTA , 登上了ICCV2021 。
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
另外 , 除了代码开源 , 研究团队还随之一起公开了一个含有10种类型的3D舞蹈动作数据集 。
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
心动的 , 搞起来搞起来!
前面咱们不是说 , 这个AI用了Transformer吗?
但这里的Transformer不是普通的Transformer , 它是一个基于(Full-Attention)的 , 简称 。
为什么要搞这么复杂?
因为研究人员发现 , 光用单纯的Transformer并 。
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
所以 , 这个FACT是怎么做的呢?
总的来说 , FACT模型采用了 。
首先输入2秒钟的seed动作序列和一段音频 , 对其进行编码 。
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
然后将embedding(从语义空间到向量空间的映射)连接起来 , 送入跨模态transformer学习两种形态的对应关系 , 并生成n个后续动作序列 。
这些序列再被用来进行模型的自监督训练 。
其中3个transformer一起学习 , 采用的是不用预处理和特征提取 , 直接把原始数据扔进去得到最终结果的的学习方式 。
另外就是在自回归框架中进行模型测试 , 将预期运动作为下一代阶段的输入 。
最终 , 该模型可以逐帧地生成一段(long-range)舞蹈动作 。
下图则展示了该模型通过同一段种子动作(嘻哈风格)、不同音乐生成了四种舞蹈作品(霹雳舞、爵士芭蕾、Krump和MiddleHip-hop) 。
有没有懂行的点评一下?
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
而为了让AI生成的舞蹈生动且和音乐风格保持一致 , 这个模型设计里面有:
1、模型内部token可以访问所有输入 , 因此三个transformer都使用一个完全注意力mask 。 这使得它比传统的因果模型更具表现力 。
2、不止预测下一个 , 该模型 。 这有助于模型关注上下文 , 避免在几个生成步骤后出现的情况 。
3、此外 , 在训练过程的前期还用了一个12层深的跨模态transformer模块来融合两个embedding(音频和动作) 。 研究人员表示 , 这是训练模型倾听分辨输入音乐的关键 。
下面就来看看真实性能 。
研究人员根据三个指标来评估:
1、:用FID来计算样本(也就是他们自己发布的那个数据集 , 后面介绍)和生成结果在特征空间之间的距离 。 一共用了40个模型生成的舞蹈序列 , 每个序列1200帧(20秒) 。
FID的几何和动力学特性分别表示为FIDg和FIDk 。
2、:通过测量40套生成动作在特征空间中的平均欧氏距离(Euclideandistance)得出 。
分别用几何特征空间Distg和动力学特征空间k来检验模型生成各种舞蹈动作的能力 。