GLM-4-Voice – 智谱AI推出的端到端情感语音模型

1个月前发布 29 00

GLM-4-Voice是 智谱AI 推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM...

收录时间:
2025-12-16
GLM-4-Voice – 智谱AI推出的端到端情感语音模型GLM-4-Voice – 智谱AI推出的端到端情感语音模型

GLM-4-Voice是 智谱AI 推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM-4-9B模型进行预训练和对齐,理解和生成语音。GLM-4-Voice的设计用端到端建模减少信息损失,提高语音交互的自然度和流畅性,且支持低延迟的实时对话,为用户提供更加丰富和自然的语音交互体验。

官网:https://github.com/THUDM/GLM-4-Voice


立即打开官网

数据统计

相关导航