MiniMates – 轻量级AI数字人项目,支持语音和表情两种驱动模式
MiniMates是高性能的轻量级数字人驱动算法,具备语音和...
VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在 语音识别 (ASR)、 文本转语音 (TTS)及口语问答(SQA)等任务的基准测试中表现优异。