VoiceCraft – 开源的语音编辑和文本转语音模型

4个月前发布 143 00

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型，专注于零样本语音编辑和文本到语音（TTS）任务。该模型采用Transformer架构，通过创新的token重排过程，结合因果掩蔽和延迟叠加技术，可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务...

收录时间：

2025-12-16

打开网站手机查看

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型，专注于零样本语音编辑和文本到语音（TTS）任务。该模型采用Transformer架构，通过创新的token重排过程，结合因果掩蔽和延迟叠加技术，可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能，生成的语音自然甚至难以与原声区分。

官网：https://jasonppy.github.io/VoiceCraft_web/

立即打开官网

数据统计

相关导航

Baichuan-Audio – 百川智能开源的端到端语音交互模型

Baichuan-Audio是百川智能推出的端到端音频大语言...

星辰大模型 – 中国电信推出的AI大模型集合平台

星辰大模型是中国电信推出的AI大模型集合平台，覆盖语义、视觉...

AI酱 – AI聊天应用，二次元风格的多语言实时对话

AI酱是二次元风格的AI多语言智能聊天APP，提供了多个二次...

Step-Audio – 阶跃星辰开源的语音交互模型

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音...

NotesGPT – 开源的AI语音笔记工具，实时转录文本自动生成行动项

NotesGPT是一款开源的AI驱动语音笔记工具，能将用户的...

Voila – 开源端到端语音大模型，实现低延迟语音对话

Voila 是开源的端到端语音大模型，专为语音交互而设计。具...

MooER – 摩尔线程推出的业界首个音频理解大模型

MooER是摩尔线程推出的业界首个基于国产全功能GPU训练的...

MarkItDown – 微软开源的多功能、多格式文档转Markdown工具

MarkItDown是微软开源的多功能文档转换工具，能将PD...