我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?( 二 )


3、:没有好的已有指标 , 他们自己提出了一个“节拍对齐分数”来评估输入音乐(音乐节拍)和输出3D动作(运动节拍)之间的关联 。
下面是FACT和三种SOTA模型(Li等人的、Dancenet、DanceRevolution)的对比结果:
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
可以看到 , FACT在三项指标上以上三位 。
*由于Li等人的模型生成的动作不连续 , 所以它的平均动力学特征距离异常高 , 可以忽略 。
看了数据 , 咱们再看个更直观的:
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
emmm , 相比动作灵活的FACT , 其他两位看起来都有点“不太聪明”的亚子……
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
最后 , 再来简单介绍一下他们自己打造的这个 。
看名字你也发现了 , 这是基于现有的舞蹈数据集AIST的“加强版” , 主要是在原有基础上加上了3D信息 。
最终的AIST++一共包含5.2小时、1408个序列的3D舞蹈动作 , 跨越十种舞蹈类型 , 包括老派和新派的的霹雳舞、Pop、Lock、Waack , 以及MiddleHip-Hop、LA-styleHip-Hop、House、Krump、街头爵士和爵士芭蕾 , 每种舞蹈类型又有 。
(怎么感觉全是街舞啊?)
每个动作都提供了9个相机视角 , 下面展示了其中三个 。
它可以用来支持以下三种任务:多视角的人体关键点估计;人体动作预测/生成;人体动作和音乐之间的跨模态分析 。
, UC伯克利一年级博士生 , UC伯克利人工智能研究室成员 , FacebookRealityLabs学生研究员 。
研究方向是计算机视觉和计算机图形学的交叉领域 , 主要为通过2D图像信息生成和重建3D世界 。
读博之前还在南加州大学视觉与图形实验室做了两年的研究助理 。
本科毕业于清华大学物理学和数学专业、硕士毕业于计算机专业 , 曾在GoogleResearch和字节AILab实习 。
, 就职于GoogleResearch 。
研究方向包括:应用机器学习、多模态感知、3D计算机视觉与物理仿真 。
博士毕业于北卡罗来纳大学教堂山分校(UNC , 美国8所公立常春藤大学之一) 。
, 在GoogleResearch领导VisualDynamics研究小组 。
加拿大多伦多大学机器学习和计算机视觉专业博士毕业 。
, 马里兰大学博士毕业 , 现在是UCB电气工程与计算机科学系的助理教授 , 在BAIR领导旗下的KAIR实验室 , 同时也是GoogleResearch的研究员 。
最最后 , 再来欣赏一遍AI编舞师的魅力吧:
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?
文章图片
论文:GitHub:https://github.com/google-research/mint数据集:项目主页:
参考链接:[1][2]
—完—
量子位QbitAI·头条号签约
我,谷歌AI编舞师,能听音乐来10种freestyle,想看爵士or芭蕾?】关注我们 , 第一时间获知前沿科技动态