GLM-4-Voice – 智谱AI推出的端到端情感语音模型

4个月前发布 113 00

GLM-4-Voice是智谱AI 推出的端到端情感语音模型，能直接理解和生成中英文语音，支持实时语音对话，能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成：GLM-4-Voice-Tokenizer负责将连续语音转换为离散token，GLM-4-Voice-Decoder将token转换回连续语音输出，GLM...

收录时间：

2025-12-16

打开网站手机查看

GLM-4-Voice – 智谱AI推出的端到端情感语音模型

GLM-4-Voice – 智谱AI推出的端到端情感语音模型

GLM-4-Voice是智谱AI 推出的端到端情感语音模型，能直接理解和生成中英文语音，支持实时语音对话，能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成：GLM-4-Voice-Tokenizer负责将连续语音转换为离散token，GLM-4-Voice-Decoder将token转换回连续语音输出，GLM-4-Voice-9B基于GLM-4-9B模型进行预训练和对齐，理解和生成语音。GLM-4-Voice的设计用端到端建模减少信息损失，提高语音交互的自然度和流畅性，且支持低延迟的实时对话，为用户提供更加丰富和自然的语音交互体验。

官网：https://github.com/THUDM/GLM-4-Voice

立即打开官网

数据统计

相关导航

EmotiVoice – 网易有道开源的AI语音合成系统

EmotiVoice是网易有道开源的多语言、多声音和提示控制...

SafeEar – 浙大和清华联合开源的AI音频伪造检测框架

SafeEar是由浙江大学和清华大学联合开发的AI音频伪造检...

Zonos – ZyphraAI 开源的多语言 TTS 模型

Zonos是Zyphra推出的高保真文本到语音（TTS...

ARTalk – 东京大学等机构推出的3D头部动画生成框架

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3...

SOLAMI – 南洋理工推出的VR端3D角色扮演AI系统

SOLAMI是创新的VR端3D角色扮演AI系统，是南洋理工大...

Westlake-Omni – 西湖心辰开源的中文情感端到端语音交互模型

Westlake-Omni 是西湖心辰推出的全球首个开源中文...

RTranslator – 开源的离线、实时、多语言翻译应用程序

RTranslator 是一款开源、免费、离线实时翻译应用程...

Vui – Fluxions-AI开源的轻量级语音对话模型

Vui 是 Fluxions-AI 团队开源的轻量级语音对话...