Speech-02 – MiniMax 推出的新一代文本转语音模型

1个月前发布 30 00

Speech-02 是 MiniMax 推出的新一代 文本到语音 (TTS)模型。模型基于回归 Transformer 架构,实现零样本 语音克隆 ,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。Speech-02提供两种版本,Speech-02-HD 专为高保真...

收录时间:
2025-12-16
Speech-02 – MiniMax 推出的新一代文本转语音模型Speech-02 – MiniMax 推出的新一代文本转语音模型

Speech-02 是 MiniMax 推出的新一代 文本到语音 (TTS)模型。模型基于回归 Transformer 架构,实现零样本 语音克隆 ,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。Speech-02提供两种版本,Speech-02-HD 专为高保真应用设计,如配音和有声读物,能消除节奏不一致问题,保持音质清晰, Speech-02-Turbo 针对实时性能优化,平衡超低延迟与卓越音质,适用于交互式应用。Speech-02模型已在 MiniMax Audio 平台及MiniMax API平台上线。

官网:https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report


立即打开官网

数据统计

相关导航