Ultravox – 端到端多模态大模型,直接理解文本和人类语音

1个月前发布 33 00

Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动 语音识别 (ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处理延迟,提高响应速度。Ultravox在Llama 3、Mistral和Gemma等模型上训练,具备快速处理音频输入的能力,Ultrav...

收录时间:
2025-12-16
Ultravox – 端到端多模态大模型,直接理解文本和人类语音Ultravox – 端到端多模态大模型,直接理解文本和人类语音

Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动 语音识别 (ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处理延迟,提高响应速度。Ultravox在Llama 3、Mistral和Gemma等模型上训练,具备快速处理音频输入的能力,Ultravox 0.4版本首次令牌生成时间约为150毫秒,每秒处理约60个令牌。未来计划,Ultravox能直接生成语音流,进一步增强与人类的自然交流。

官网:https://github.com/fixie-ai/ultravox/


立即打开官网

数据统计

相关导航