Ultravox – 端到端多模态大模型，直接理解文本和人类语音

4个月前发布 126 00

Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动语音识别（ASR）阶段。基于多模态投影器技术将音频数据转换为高维空间表示，与LLM直接耦合，显著减少处理延迟，提高响应速度。Ultravox在Llama 3、Mistral和Gemma等模型上训练，具备快速处理音频输入的能力，Ultrav...

收录时间：

2025-12-16

打开网站手机查看

Ultravox – 端到端多模态大模型，直接理解文本和人类语音

Ultravox – 端到端多模态大模型，直接理解文本和人类语音

Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动语音识别（ASR）阶段。基于多模态投影器技术将音频数据转换为高维空间表示，与LLM直接耦合，显著减少处理延迟，提高响应速度。Ultravox在Llama 3、Mistral和Gemma等模型上训练，具备快速处理音频输入的能力，Ultravox 0.4版本首次令牌生成时间约为150毫秒，每秒处理约60个令牌。未来计划，Ultravox能直接生成语音流，进一步增强与人类的自然交流。

官网：https://github.com/fixie-ai/ultravox/

立即打开官网

数据统计

相关导航

GTSinger – 浙大开源的大型多语言高质量歌声数据集

GTSinger是由浙江大学研究团队推出的大型开源高质量歌声...

Spirit LM – Meta推出多模态语言模型，无缝集成语音和文本

Spirit LM是由Meta AI团队推出的一种多模态语言...

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin是清华大学电子工程系语音与音频技术实验室联合海...

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis 是 Kyutai 推出的开源多模态语音模型...

Ciallo TTS – 在线AI文本转语音工具，支持长文本自动分段处理

Ciallo TTS是开源的在线文本转语音工具，支持超过...

猫头音 – AI配音翻唱软件，将文字转化为个性化逼真的配音效果

猫头音是AI配音翻唱软件，将文字转化为逼真的语音。软件提供丰...

Mathtutor on Groq – AI数学辅导工具，支持用语音形式提出数学问题

Mathtutor on Groq 是基于 Groq 架构的...

Lobe Chat – 免费开源的高性能AI聊天机器人框架

Lobe Chat是一个免费开源的高性能 AI聊天机器人框...