EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型

4个月前发布 122 00

EMOVA（EMotionally Omni-present Voice Assistant）是多模态全能模型，是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、文本和语音模态，实现能看、能听、会说的全模态交互。EMOVA基于语义声学分离技术和轻量级情感控制模块，支持情感丰富的语音对话，让得人机交互更加自...

收录时间：

2025-12-16

打开网站手机查看

EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型

EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型

EMOVA（EMotionally Omni-present Voice Assistant）是多模态全能模型，是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、文本和语音模态，实现能看、能听、会说的全模态交互。EMOVA基于语义声学分离技术和轻量级情感控制模块，支持情感丰富的语音对话，让得人机交互更加自然和人性化。EMOVA在视觉语言和语音任务中均展现出优越性能，为AI领域提供新的实现思路，推动情感交互的发展。

官网：https://arxiv.org/pdf/2409.18042

立即打开官网

数据统计

相关导航

KHOJ – 开源 AI 个人化助手，一站式知识管理工具

KHOJ是开源的个人化AI助手，帮助用户整合和检索知识。支持...

TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术

TaoAvatar是阿里巴巴集团研究团队推出的高保真、轻量级...

J1 Assistant – 罗永浩旗下 Jarvis 项目推出的 AI 智能助手

J1 Assistant 是罗永浩旗下 AI 初创项目 Ja...

Open-LLM-VTuber – AI数字人语音交互项目，支持实时语音对话和视觉感知

Open-LLM-VTuber 是开源的跨平台语音交互 AI...

NotesGPT – 开源的AI语音笔记工具，实时转录文本自动生成行动项

NotesGPT是一款开源的AI驱动语音笔记工具，能将用户的...

FireRedASR – 小红书开源的自动语音识别模型

FireRedASR 是小红书开源的工业级自动语音识别 ...

ARTalk – 东京大学等机构推出的3D头部动画生成框架

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3...

MooER – 摩尔线程推出的业界首个音频理解大模型

MooER是摩尔线程推出的业界首个基于国产全功能GPU训练的...