Takin AudioLLM – 喜马拉雅推出的系列零样本语音生成模型
Takin AudioLLM是喜马拉雅Everest团队推出...
EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、文本和语音模态,实现能看、能听、会说的全模态交互。EMOVA基于语义声学分离技术和轻量级情感控制模块,支持情感丰富的语音对话,让得人机交互更加自然和人性化。EMOVA在视觉语言和语音任务中均展现出优越性能,为AI领域提供新的实现思路,推动情感交互的发展。