Speech-02 – MiniMax 推出的新一代文本转语音模型

4个月前发布 108 00

Speech-02 是 MiniMax 推出的新一代文本到语音（TTS）模型。模型基于回归 Transformer 架构，实现零样本语音克隆，仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力，提升合成语音的质量和相似度。Speech-02提供两种版本，Speech-02-HD 专为高保真...

收录时间：

2025-12-16

打开网站手机查看

Speech-02 – MiniMax 推出的新一代文本转语音模型

Speech-02 – MiniMax 推出的新一代文本转语音模型

Speech-02 是 MiniMax 推出的新一代文本到语音（TTS）模型。模型基于回归 Transformer 架构，实现零样本语音克隆，仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力，提升合成语音的质量和相似度。Speech-02提供两种版本，Speech-02-HD 专为高保真应用设计，如配音和有声读物，能消除节奏不一致问题，保持音质清晰， Speech-02-Turbo 针对实时性能优化，平衡超低延迟与卓越音质，适用于交互式应用。Speech-02模型已在 MiniMax Audio 平台及MiniMax API平台上线。

官网：https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report

立即打开官网

数据统计

相关导航

Indic Parler-TTS – 开源多语言TTS模型，专注于合成印度语和英语

Indic Parler-TTS 是 Hugging Fac...

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin是清华大学电子工程系语音与音频技术实验室联合海...

FeedMe – 多源RSS内容聚合AI工具，一站式获取最新内容

FeedMe 是专为 Android 设计的离线 RSS 阅...

Lobe Vidol – AI数字人交互平台，可与虚拟人和 3D 模型聊天互动

Lobe Vidol是开源的数字人创作平台，让每个人都能...

口语精灵 – AI口语学习应用，智能检测和纠正语法错误

口语精灵是 AI口语学习软件，通过先进的人工智能技术和真人...

Ichigo – 开源的多模态AI语音助手，实时处理语音和文本的交织序列

Ichigo是开源的多模态AI语音助手，采用混合模态模型，能...

OSUM – 西北工业大学开源的语音理解模型

OSUM（Open Speech Understanding...

TEN VAD – AI实时语音活动检测系统，低延迟、轻量级、高精度

TEN VAD 是高性能的实时语音活动检测系统，专为企业级应...