Step-Audio-TTS-3B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音

1个月前发布 51 00

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能 文本到语音 (TTS)模型,具有强大的语音合成能力。基于海量合成数据训练,参数量达到30亿,能生成自然流畅、富有表现力的语音。模型支持多种语言和方言,如中文、英语、日语以及粤语、四川话等,可通过情感控制生成不同情绪的语音,如喜悦、悲伤或愤怒。Step-Audi...

收录时间:
2025-12-16
Step-Audio-TTS-3B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音Step-Audio-TTS-3B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能 文本到语音 (TTS)模型,具有强大的语音合成能力。基于海量合成数据训练,参数量达到30亿,能生成自然流畅、富有表现力的语音。模型支持多种语言和方言,如中文、英语、日语以及粤语、四川话等,可通过情感控制生成不同情绪的语音,如喜悦、悲伤或愤怒。Step-Audio-TTS-3B 支持特殊韵律风格的语音合成,例如说唱风格,满足多样化场景需求。

官网:https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B


立即打开官网

数据统计

相关导航