Ultravox – 端到端多模态大模型,直接理解文本和人类语音
Ultravox是新型的多模态大型语言模型(LLM),能直接...
Speech-02 是 MiniMax 推出的新一代 文本到语音 (TTS)模型。模型基于回归 Transformer 架构,实现零样本 语音克隆 ,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。Speech-02提供两种版本,Speech-02-HD 专为高保真应用设计,如配音和有声读物,能消除节奏不一致问题,保持音质清晰, Speech-02-Turbo 针对实时性能优化,平衡超低延迟与卓越音质,适用于交互式应用。Speech-02模型已在 MiniMax Audio 平台及MiniMax API平台上线。
官网:https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report