Dolphin – 清华联合海天瑞声推出的语音识别大模型

4个月前发布 104 00

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别，中文语种涵盖22种方言（含普通话），能精准识别不同地区的语言特点。模型训练数据总时长21.2万小时，高质量专有数据13.8万小时，开源数据7.4万小时。在性能上，Dolphin的词错率（WER）显著低于W...

收录时间：

2025-12-16

打开网站手机查看

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别，中文语种涵盖22种方言（含普通话），能精准识别不同地区的语言特点。模型训练数据总时长21.2万小时，高质量专有数据13.8万小时，开源数据7.4万小时。在性能上，Dolphin的词错率（WER）显著低于Whisper同等尺寸模型，如base版本平均WER降低63.1%，small版本降低68.2%。采用CTC-Attention架构，结合E-Branchformer编码器和Transformer解码器，通过4倍下采样层加速计算，保留关键语音信息。

官网：https://github.com/DataoceanAI/Dolphin

立即打开官网

数据统计

相关导航

AI酱 – AI聊天应用，二次元风格的多语言实时对话

AI酱是二次元风格的AI多语言智能聊天APP，提供了多个二次...

Hibiki – Kyutai Labs 推出的实时语音翻译模型

Hibiki是Kyutai Labs开源的用在同时语音翻译的...

RealtimeSTT – AI实时语音转文本库，自动检测说话的开始与结束

RealtimeSTT是开源的实时语音转文本库，专为低延...

CSM – Sesame团队推出的语音对话模型

CSM（Conversational Speech Mode...

VITA-Audio – 开源的端到端多模态语音大模型，低延迟、推理快

VITA-Audio 是开源的端到端多模态语音大模型，具有低...

Soundwave – 港中文深圳开源的语音理解大模型

Soundwave是香港中文大学（深圳）开源的语音理解大模型...

OuteTTS – 开源的文本到语音合成项目，基于纯语言建模方法生成语音

OuteTTS是开源的文本到语音（TTS）项目，基于纯语言建...

Talk to Ash – AI心理健康咨询师，全天候心理辅导和情感支持

Talk to Ash 是基于人工智能的心理健康支持平台，通...