“小河弯弯向南流 , 流到香江去看一看……”
歌声响起处 , 大屏幕上五彩斑斓的3D音画随着旋律“起舞” , 晶莹欲滴的珠子不断幻变出城市、海港、船帆 , 还有月色和灯火 , 水母在玫瑰色的天空中游弋 , 巨大的海浪卷出彩虹……
一场别开生面的音乐会7月14日在香港大会堂音乐厅举行 , 担任指挥的是香港浸会大学交响乐团音乐总监潘明伦 。 在真人乐团的现场伴奏下 , 300多个虚拟人声合唱一曲《东方之珠》 , 配上由人工智能为歌曲创作的3D音画 , 瑰丽奇幻 , 气势恢宏 。
“这应该是全球首场同类的人机合作表演 。 ”人工智能专家、浸会大学副校长郭毅可说 , “人和机器共同创作和完成一个艺术作品 , 我们做到了 。 ”
这是浸会大学“香港人机共生艺术创造平台技术建设”项目拿出的第一份成绩单 。 这一项目去年获得香港特区政府拨款5200多万港元 , 开展为期5年的艺术科技研究 。
组建人工智能“合唱团”
今年是香港回归祖国25周年 , 项目团队首先想到了歌曲《东方之珠》 。 “用人机交互的方式进行再创作 , 以此送上我们的祝福 。 ”负责该项目的郭毅可说 。
第一个挑战是“组建”320个虚拟歌手组成的人工智能“合唱团” 。
通过收集专业歌手的录音歌曲 , 他们提取和分解了声乐的主要特点 , 开发了声乐的生成模型 , 成功创建了一个四声部的合唱 , 同时通过8个人的人声采样 , 生成320个具有全新音色的虚拟歌手 , “组建”成团 。
虚拟歌手们开始“唱”得并不好 , 会唱错、唱不上高音甚至破音跑调 。 “声音就是频率 , 教它们学唱歌不算太难 , 就是需要不断地通过调整频率进行改善 。 ”郭毅可说 。
第二个挑战是表演时的人机互动 。 在舞台上 , 指挥和乐团是真人 , 虚拟歌手们要学会“听”指挥的指令 , 做到与交响乐团的现场演奏无缝衔接 , 而这并非易事 。
采访人员在彩排现场看到 , 指挥潘明伦脱去了西装 , 他的腰上、肩上、手臂和手腕处都绑着装有传感器的绑带 , 他不时停下指挥 , 与台下的技术团队进行沟通磨合 。
传感器的作用是把指挥的肢体动作“同声传译”给人工智能合唱系统 。 “难点也在于此 , 指挥的手势不是固定的 , 需要有个模糊逻辑让系统学习 。 开始挺乱的 , 现在越练越好了 。 ”郭毅可说 。
经过长达半年的科研攻关和人机磨合 , 浸大的人工智能合唱团成功地完成了与真人交响乐团的合作 。
人工智能眼里的“东方之珠”
最大的突破来自人工智能的“创作” 。 配合歌曲意境 , 人工智能自主创作的3D音画 , 用天马行空的想象力和表现力向人类描述了它眼中的“东方之珠” 。
在这段时长约4分钟的3D音画里 , 人工智能共生成近3000张图像 , 且画面之间逻辑顺畅 , 并与《东方之珠》的歌词和旋律相匹配 。 “根据歌词内容不断变化 , 动态生成各种场景 。 镜头设计了一个虚拟的飞行视角 , 其速度和高度随旋律而变化 , 音量高就飞得高;节奏快 , 速度也会加快 。 ”郭毅可说 。
刚开始的时候 , 团队只是让人工智能根据歌词生成一幅幅画 , 将它们简单连接 。 随着探索的深入 , 他们开始尝试让人工智能“创作”三维视频 。 “这需要对歌词内容系统地理解 , 而且逻辑必须连贯 , 并且自动生成 。 这个时候我们的创新就开始了 。 ”郭毅可说 。
要做到这一点 , 首先要让机器学会理解歌词的文字内涵 , 人“教会”机器了解一些相对应的关系 , 比如香江代表着香港 , “珠”的意象要成为贯穿音画的主线等 , 在此基础上让机器自主想象 , 自行创作 。 而在机器完成创作后 , 具备不具备美感和意义则需要人来反馈 , 并帮助它修正 。