灌篮高手|LoveLive! 出了一篇AI论文:生成模型自动写曲谱( 二 )


降低乐谱生成的成本对于在线音游开发者来说是一个重要挑战 , 因为它是日常运营的瓶颈 。 KLab提出的方法实现了只需要音频 , 就可以直接生成乐谱 。
在研究过程中 , 开发者们首先提出了DanceDanceConvolution(DDC) , 生成了具有人类高水平的 , 较高难度游戏模式的乐谱 , 但低难度反而效果不好 。 随后研究者们通过改进数据集和多尺度conv-stack架构 , 成功捕捉了乐谱中四分音符之间的时间依赖性以及八分音符和提示节拍的位置 , 它们是音游中放置按键的较好时机 。
DDC由两个子模型组成:onset(生成音符的时机)和sym(决定音符类型 , 如轻按或滑动)
目前正在使用的AI模型在所有难度的曲谱上都获得了很好的效果 , 研究人员还展望了该技术扩展到其他领域的可能性 。

KLab应用深度生成模型来合成乐谱 , 并改进乐谱的制作流程 , 将业务成本降低了一半 。 该研究阐明了如何通过专门用于节奏动作的多尺度新模型GenéLive! , 借助节拍等来克服挑战 , 并使用KLab的生产数据集和开放数据集进行了评估 。
方法
此前 , KLab乐谱的生成工作流是在不考虑自动化的情况下形成的 , 几乎没有达成明确的规则或数学优化目标 。 因此 , 该研究选择使用监督机器学习 。 到2019年底 , KLab已经发布了数百首歌曲的音频序列和相应的人工生成乐谱 。
一方面 , 这个项目被要求快速交付并起到协助的作用;另一方面 , 项目的目标具有挑战性 , 旨在改进SOTA深度生成模型 。 通常 , 研究新型神经网络架构需要大量的反复试验 , 这个过程需要六个月或更长时间 。
为了解决时间上的问题 , 该研究组织了一个模型开发团队和一个模型服务团队 , 通过与艺术家团队保持联系获得反馈 , 将其反映到模型开发和服务中 , 并在第一时间提供更新的模型 , 从而使他们保持一致 。
GenéLive!的基础模型由卷积神经网络CNN层和长短期记忆网络LSTM层组成 。 对于频域中的信号 , 作者利用CNN层来捕获频率特征 , 对于时域利用LSTM层来完成任务 。

GenéLive!的模型架构 。
在这里 , 卷积堆栈(conv-stack)的主要任务是使用CNN层从mel频谱图中提取特征 。 conv-stack包括一个具有批量标准化的标准CNN层、一个最大池化层和一个dropout层 , 激活函数是ReLU 。 最后为了规范输出 , 这里使用了全连接层 。
时域方面采用了BiLSTM , 提供前一个conv-stack的输出作为输入 。 为了实现不同的难度模式 , 作者将难度编码为一个标量(初级是10 , 中级是20 , 以此类推)并将这个值作为新特征附加到convstack的输出中 。

Conv-stack架构 。
在训练数据方面 , GenéLive!使用了几百首早期的LLAS歌曲 , 《歌之王子殿下》的歌曲 , 以及音乐游戏引擎「Stepmania」中可公开访问的音乐和乐谱 。
模型开发
该模型是由KLab和九州大学合作完成的 。 两个团队之间需要一个基于Web的协作平台来共享源代码、数据集、模型和实验等 。 具体来说 , 该研究用于模型开发的系统架构如下图所示 。

模型服务
为了使乐谱生成程序可供艺术家按需使用 , 它应该方便艺术家自行使用而无需AI工程师的帮助 。 并且由于该程序需要高端GPU , 将其安装在艺术家的本地计算机上并不是一个合适的选择 。 该模型服务系统架构如下图所示 。

实验结果
为了度量该方法中每个组件的性能 , 研究者在「LoveLive!AllStars」数据集上进行了消融实验 。
下表3的结果表明GenéLive!模型优于此前的SOTA模型DDC 。

为了评估节拍指导的作用 , 消融实验的结果如下图9所示 。

相关经验推荐