Dia – 开源文本转语音模型,支持生成自然逼真的对话语音

1个月前发布 39 00

Dia 是 Nari Labs 推出的开源 文本转语音 (TTS)模型,拥有 16亿参数,根据文本脚本直接生成高度逼真的对话语音,支持多说话者标记、情感语调控制以及非语言提示(如笑声、咳嗽声等),通过 语音克隆 功能生成与特定音频相似的声音。Dia 的代码和权重已在 Hugging Face 和 GitHub 上开源,用户可以下载并本地部...

收录时间:
2025-12-16
Dia – 开源文本转语音模型,支持生成自然逼真的对话语音Dia – 开源文本转语音模型,支持生成自然逼真的对话语音

Dia 是 Nari Labs 推出的开源 文本转语音 (TTS)模型,拥有 16亿参数,根据文本脚本直接生成高度逼真的对话语音,支持多说话者标记、情感语调控制以及非语言提示(如笑声、咳嗽声等),通过 语音克隆 功能生成与特定音频相似的声音。Dia 的代码和权重已在 Hugging Face 和 GitHub 上开源,用户可以下载并本地部署,也可以通过 Gradio 界面在线体验。

官网:https://github.com/nari-labs/dia


立即打开官网

数据统计

相关导航