FireRedASR – 小红书开源的自动语音识别模型
FireRedASR 是小红书开源的工业级自动 语音识别 ...
Speech-02 是 MiniMax 推出的新一代 文本到语音 (TTS)模型。模型基于回归 Transformer 架构,实现零样本 语音克隆 ,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。Speech-02提供两种版本,Speech-02-HD 专为高保真应用设计,如配音和有声读物,能消除节奏不一致问题,保持音质清晰, Speech-02-Turbo 针对实时性能优化,平衡超低延迟与卓越音质,适用于交互式应用。Speech-02模型已在 MiniMax Audio 平台及MiniMax API平台上线。
官网:https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report