谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具
DiffRhythm(中文名称:谛韵) 是西北工业大学与香港...
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能,在GitHub等平台开源代码和模型,支持进一步的研究。