TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

4个月前发布 166 00

TANGOFLUX是高效的文本到音频生成模型，是新加坡科技设计大学（SUTD）和NVIDIA共同推出的。模型拥有约5.15亿参数，能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization（CRPO）框架，基于迭代生成和优化偏好数据来提...

收录时间：

2025-12-16

打开网站手机查看

TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

TANGOFLUX是高效的文本到音频生成模型，是新加坡科技设计大学（SUTD）和NVIDIA共同推出的。模型拥有约5.15亿参数，能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization（CRPO）框架，基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能，在GitHub等平台开源代码和模型，支持进一步的研究。

官网：https://github.com/declare-lab/TangoFlux

立即打开官网

数据统计

相关导航

谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具

DiffRhythm（中文名称：谛韵）是西北工业大学与香港...

Emotion-LLaMA – 多模态情绪识别与推理模型，融合音频、视觉和文本输入

Emotion-LLaMA是多模态情绪识别与推理模型，融合了...

INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架

INFP是音频驱动的头部生成框架，专为双人对话交互设计。能自...

琴乐大模型 – 腾讯推出的AI音乐创作大模型

琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发...

Manifest – AI心理健康应用，根据情绪状态定制化心里健康对话

Manifest是Amy Wu推出的基于AI技术的心理健康应...

AnythingLLM – 开源的全栈 AI 客户端，支持本地部署和API集成

AnythingLLM 是开源免费且支持多模态交互的全栈 A...

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

SongGen是上海AI Lab、北京航空航天大学和香港中文...

EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

EMAGE（Expressive Masked Audio...