EzAudio – 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

4个月前发布 114 00

EzAudio是由约翰霍普金斯大学和腾讯AI实验室共同推出的一款文本到音频（Text-to-Audio, T2A）生成模型。基于一种高效的扩散变换器技术，用在从文本提示生成高质量的音频效果。EzAudio的创新之处在于优化的模型架构和数据高效训练策略，在生成速度、效率和音频真实感方面都达到新标准。EzAudio引入无分类器引导重缩放技术...

收录时间：

2025-12-16

打开网站手机查看

EzAudio – 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

EzAudio – 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

EzAudio是由约翰霍普金斯大学和腾讯AI实验室共同推出的一款文本到音频（Text-to-Audio, T2A）生成模型。基于一种高效的扩散变换器技术，用在从文本提示生成高质量的音频效果。EzAudio的创新之处在于优化的模型架构和数据高效训练策略，在生成速度、效率和音频真实感方面都达到新标准。EzAudio引入无分类器引导重缩放技术，简化模型使用保持音频质量。

官网：https://github.com/haidog-yaqub/EzAudio

立即打开官网

数据统计

相关导航

琴乐大模型 – 腾讯推出的AI音乐创作大模型

琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发...

谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具

DiffRhythm（中文名称：谛韵）是西北工业大学与香港...

行者AI

行者AI官网是成都潜在人工智能科技有限公司的官方网站，展示其基于AI技术的文娱、教育、内容生成与智能安全解决方案，以及企业动态与行业成果。

Hertz-Dev – Standard Intelligence推出8.5亿参数的开源音频模型

Hertz-Dev是Standard Intelligenc...

Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型

Stable Audio Open Small 是 Stab...

Nooka – AI播客应用，收听时可随时提问实时互动

Nooka是创新的AI驱动的听书应用，提供全球优质非虚构类书...

EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

EMAGE（Expressive Masked Audio...

InspireMusic – 阿里通义实验室开源的音乐生成技术

InspireMusic 是阿里巴巴通义实验室开源的音乐生...