VITA-Audio – 开源的端到端多模态语音大模型,低延迟、推理快

1个月前发布 39 00

VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在 语音识别 (ASR...

收录时间:
2025-12-16
VITA-Audio – 开源的端到端多模态语音大模型,低延迟、推理快VITA-Audio – 开源的端到端多模态语音大模型,低延迟、推理快

VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在 语音识别 (ASR)、 文本转语音 (TTS)及口语问答(SQA)等任务的基准测试中表现优异。

官网:https://github.com/VITA-MLLM/VITA-Audio


立即打开官网

数据统计

相关导航