CosyVoice 2.0 – 阿里开源的语音生成大模型

4个月前发布 140 00

CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版，模型用有限标量量化技术提高码本利用率，简化文本-语音语言模型架构，推出块感知因果流匹配模型支持多样的合成场景。CosyVoice 2 在发音准确性、音色一致性、韵律和音质上都有显著提升，MOS评测分从5.4提升到5.53，支持流式推理，大幅降低首...

收录时间：

2025-12-16

打开网站手机查看

CosyVoice 2.0 – 阿里开源的语音生成大模型

CosyVoice 2.0 – 阿里开源的语音生成大模型

CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版，模型用有限标量量化技术提高码本利用率，简化文本-语音语言模型架构，推出块感知因果流匹配模型支持多样的合成场景。CosyVoice 2 在发音准确性、音色一致性、韵律和音质上都有显著提升，MOS评测分从5.4提升到5.53，支持流式推理，大幅降低首包合成延迟至150ms，适合实时语音合成场景。

官网：https://funaudiollm.github.io/cosyvoice2/

立即打开官网

数据统计

相关导航

Hibiki – Kyutai Labs 推出的实时语音翻译模型

Hibiki是Kyutai Labs开源的用在同时语音翻译的...

MARS5-TTS – 开源的AI声音克隆工具，支持140+语言

MARS5-TTS是CAMB.AI推出开源的 AI声音克隆工...

Voila – 开源端到端语音大模型，实现低延迟语音对话

Voila 是开源的端到端语音大模型，专为语音交互而设计。具...

Open NotebookLM – 开源的PDF转播客AI工具，能自定义语气

Open NotebookLM 是一个开源的AI工具，基于最...

LatentLM – 微软联合清华推出的多模态生成模型

LatentLM是微软研究院和清华大学共同推出的多模态生成模...

Mathtutor on Groq – AI数学辅导工具，支持用语音形式提出数学问题

Mathtutor on Groq 是基于 Groq 架构的...

AstrBot – 开源多平台聊天机器人及开发框架

AstrBot是多平台聊天机器人及开发框架，支持多种大语言模...

Universal-1 – AssemblyAI推出的多语种语音识别和转换模型

Universal-1是AI语音初创公司AssemblyAI...