Voila – 开源端到端语音大模型，实现低延迟语音对话

4个月前发布 123 00

Voila 是开源的端到端语音大模型，专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力，能直接处理语音输入并生成语音输出，为用户提供流畅且自然的交互体验。Voila 集成了语音和语言建模能力，支持数百万种预构建和自定义声音，用户可以通过文本指令或音频样本轻松定制说话者的特征和声音。包含两个主要模型：Voila-e2e 用于端...

收录时间：

2025-12-16

打开网站手机查看

Voila – 开源端到端语音大模型，实现低延迟语音对话

Voila – 开源端到端语音大模型，实现低延迟语音对话

Voila 是开源的端到端语音大模型，专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力，能直接处理语音输入并生成语音输出，为用户提供流畅且自然的交互体验。Voila 集成了语音和语言建模能力，支持数百万种预构建和自定义声音，用户可以通过文本指令或音频样本轻松定制说话者的特征和声音。包含两个主要模型：Voila-e2e 用于端到端语音对话，Voila-autonomous 用于自主互动。一个模型即可支持多种音频任务，降低了开发和部署成本。

官网：https://github.com/maitrix-org/Voila

立即打开官网

数据统计

相关导航

MiniMates – 轻量级AI数字人项目，支持语音和表情两种驱动模式

MiniMates是高性能的轻量级数字人驱动算法，具备语音和...

陌生人闹钟 – AI闹钟应用，随机陌生人叫你起床的社交软件

陌生人闹钟是一款创新的闹钟应用，通过AI技术连接全球用户，让...

GPT-4o – OpenAI最新发布的多模态AI大模型

GPT-4o是OpenAI最新推出的一款先进的人工智能模型...

PodAgent – 港中文、微软、小红书联合推出的播客生成框架

PodAgent 是香港中文大学、微软和小红书联合推出的播客...

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开...

MinMo – 阿里通义实验室推出的多模态语音交互大模型

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出...

F5-TTS – 上海交大推出开源的文本到语音（TTS）合成系统

F5-TTS是由上海交通大学开源的一款高性能文本到语音（TT...

Weebo – AI语音聊天机器人，实时响应用户语音指令和问题

Weebo是实时语音聊天机器人，基于Whisper Sm...