Step-Audio-TTS-3B – 高性能 TTS 模型，能生成特定情感和说唱风格的语音

4个月前发布 153 00

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音（TTS）模型，具有强大的语音合成能力。基于海量合成数据训练，参数量达到30亿，能生成自然流畅、富有表现力的语音。模型支持多种语言和方言，如中文、英语、日语以及粤语、四川话等，可通过情感控制生成不同情绪的语音，如喜悦、悲伤或愤怒。Step-Audi...

收录时间：

2025-12-16

打开网站手机查看

Step-Audio-TTS-3B – 高性能 TTS 模型，能生成特定情感和说唱风格的语音

Step-Audio-TTS-3B – 高性能 TTS 模型，能生成特定情感和说唱风格的语音

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音（TTS）模型，具有强大的语音合成能力。基于海量合成数据训练，参数量达到30亿，能生成自然流畅、富有表现力的语音。模型支持多种语言和方言，如中文、英语、日语以及粤语、四川话等，可通过情感控制生成不同情绪的语音，如喜悦、悲伤或愤怒。Step-Audio-TTS-3B 支持特殊韵律风格的语音合成，例如说唱风格，满足多样化场景需求。

官网：https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

立即打开官网

数据统计

相关导航

Reverb ASR – Rev公司开源的自动语音识别和说话人分离模型

Reverb ASR是Rev公司推出的开源自动语音识别和说话...

Realtime API – OpenAI推出的实时语音交互API

Realtime API是OpenAI推出的一种低延迟、多模...

AutoGLM-Web – AI浏览器助手，模拟用户进行网页浏览与交互

AutoGLM-Web是模拟用户操作的AI浏览器助手，基于大...

Weebo – AI语音聊天机器人，实时响应用户语音指令和问题

Weebo是实时语音聊天机器人，基于Whisper Sm...

SafeEar – 浙大和清华联合开源的AI音频伪造检测框架

SafeEar是由浙江大学和清华大学联合开发的AI音频伪造检...

小饿 – 饿了么推出的骑手端AI智能语音助手

小饿是饿了么为外卖骑手推出的AI智能语音助手。基于大模型技术...

Dinox – AI语音笔记应用，智能生成笔记标题自动双链

Dinox是基于AI技术的语音笔记应用，通过实时语音转录功能...

LangBot – 多模态即时聊天机器人构建与管理的开源平台

LangBot 是开源的即时聊天机器人平台，支持多平台...