
LeVo - 具有多首选项对齐的高质量歌曲生成
LeVo 简介
大型语言模型 (LLM) 和音频语言模型的最新进展显著改善了音乐生成,尤其是在歌词到歌曲的生成方面。 然而,现有方法仍然难以应对歌曲的复杂创作和高质量数据的稀缺,导致音质、音乐性、指令跟随和声乐器和声方面的限制。 为了应对这些挑战,我们引入了 LeVo,这是一个基于 LM 的框架,由 LeLM 和音乐编解码器组成。 LeLM 能够对两种类型的标记进行并行建模:混合标记,它表示人声和伴奏的组合音频,以实现人声-乐器的和声,以及双轨标记,分别编码人声和伴奏以生成高质量的歌曲。 它采用两个仅解码器的变压器和一个模块化扩展训练策略,以防止不同令牌类型之间的干扰。 为了进一步增强音乐性和指令跟随性,我们引入了一种基于直接偏好优化 (DPO) 的多偏好对齐方法。 这种方法通过半自动数据构建过程和 DPO 微调来处理不同的人类偏好。 实验结果表明,LeVo 在客观和主观指标上始终优于现有方法。 消融研究进一步证明了我们设计的有效性。
数据统计
数据评估
本站商娱网提供的LeVo都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由商娱网实际控制,在2025-07-01 11:21收录和巡查时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,商娱网不承担任何责任。
相关导航


Udio

Typecast

Notta

Krisp

TTSMaker

AssemblyAI
