OSUM – 西北工业大学开源的语音理解模型

4个月前发布 128 00

OSUM（Open Speech Understanding Model）是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM，支持语音识别（ASR）、语音情感识别（SER）、说话者性别分类（SGC）等多种语音任务。OSUM基于“ASR+X”多任务训练策略，用模...

收录时间：

2025-12-16

打开网站手机查看

OSUM – 西北工业大学开源的语音理解模型

OSUM – 西北工业大学开源的语音理解模型

OSUM（Open Speech Understanding Model）是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM，支持语音识别（ASR）、语音情感识别（SER）、说话者性别分类（SGC）等多种语音任务。OSUM基于“ASR+X”多任务训练策略，用模态对齐和目标任务的优化，实现高效稳定的训练。OSUM用约5万小时的多样化语音数据进行训练，性能在多项任务中表现优异，在中文ASR和多任务泛化能力上表现出色。

官网：https://github.com/ASLP-lab/OSUM

立即打开官网

数据统计

相关导航

小饿 – 饿了么推出的骑手端AI智能语音助手

小饿是饿了么为外卖骑手推出的AI智能语音助手。基于大模型技术...

SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集

SeniorTalk 是智源研究院联合南开大学计算机学院人类...

MooER – 摩尔线程推出的业界首个音频理解大模型

MooER是摩尔线程推出的业界首个基于国产全功能GPU训练的...

Weebo – AI语音聊天机器人，实时响应用户语音指令和问题

Weebo是实时语音聊天机器人，基于Whisper Sm...

Step-Audio-TTS-3B – 高性能 TTS 模型，能生成特定情感和说唱风格的语音

Step-Audio-TTS-3B 是 Stepfun-AI...

汉王语音王 – 汉王科技推出的智能语音APP

汉王语音王是汉王科技推出的智能语音APP，集成了AI语音记录...

CosyVoice 2.0 – 阿里开源的语音生成大模型

CosyVoice 2.0 是阿里巴巴通义实验室推出的Cos...

Takin AudioLLM – 喜马拉雅推出的系列零样本语音生成模型

Takin AudioLLM是喜马拉雅Everest团队推出...