VITA-Audio – 开源的端到端多模态语音大模型，低延迟、推理快

4个月前发布 142 00

VITA-Audio 是开源的端到端多模态语音大模型，具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测（MCTP）模块，可在首次前向传播中生成音频输出，将生成首个音频标记块的时间大幅缩短，显著降低流式场景下的延迟。采用四阶段渐进式训练策略，在70亿参数规模下，推理速度比相似规模的开源模型快3至5倍，同时在语音识别（ASR...

收录时间：

2025-12-16

打开网站手机查看

VITA-Audio – 开源的端到端多模态语音大模型，低延迟、推理快

VITA-Audio – 开源的端到端多模态语音大模型，低延迟、推理快

VITA-Audio 是开源的端到端多模态语音大模型，具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测（MCTP）模块，可在首次前向传播中生成音频输出，将生成首个音频标记块的时间大幅缩短，显著降低流式场景下的延迟。采用四阶段渐进式训练策略，在70亿参数规模下，推理速度比相似规模的开源模型快3至5倍，同时在语音识别（ASR）、文本转语音（TTS）及口语问答（SQA）等任务的基准测试中表现优异。

官网：https://github.com/VITA-MLLM/VITA-Audio

立即打开官网

数据统计

相关导航

Open-LLM-VTuber – AI数字人语音交互项目，支持实时语音对话和视觉感知

Open-LLM-VTuber 是开源的跨平台语音交互 AI...

Ichigo – 开源的多模态AI语音助手，实时处理语音和文本的交织序列

Ichigo是开源的多模态AI语音助手，采用混合模态模型，能...

GLM-4-Voice – 智谱AI推出的端到端情感语音模型

GLM-4-Voice是智谱AI 推出的端到端情感语音模型...

猫头音 – AI配音翻唱软件，将文字转化为个性化逼真的配音效果

猫头音是AI配音翻唱软件，将文字转化为逼真的语音。软件提供丰...

3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态...

Moonshine – 实时转录场景、低延时高准确的语音识别模型

Moonshine是专为资源受限设备优化的语音识别模型，提供...

Audio-SDS – NVIDIA推出的扩展文本条件音频扩散模型

Audio-SDS是NVIDIA AI研究团队推出的创新技术...

百聆 – AI语音对话助手，端到端时延低至800ms

百聆(Bailing)是开源的语音对话助手，基于语音识别 ...