Baichuan-Audio – 百川智能开源的端到端语音交互模型

4个月前发布 102 00

Baichuan-Audio是百川智能推出的端到端音频大语言模型，支持无缝集成音频理解和生成功能，实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码本离散化技术将音频信号转化为离散标记，保留语义和声学信息，用独立的音频头增强音频特征处理能力。模型基于两阶段预训练策略，结合交错数据训练，平衡音频建模和语言理解能力...

收录时间：

2025-12-16

打开网站手机查看

Baichuan-Audio – 百川智能开源的端到端语音交互模型

Baichuan-Audio – 百川智能开源的端到端语音交互模型

Baichuan-Audio是百川智能推出的端到端音频大语言模型，支持无缝集成音频理解和生成功能，实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码本离散化技术将音频信号转化为离散标记，保留语义和声学信息，用独立的音频头增强音频特征处理能力。模型基于两阶段预训练策略，结合交错数据训练，平衡音频建模和语言理解能力。Baichuan-Audio在实时语音对话、问答、语音识别（ASR）和语音合成（TTS）等任务中表现出色，Baichuan-Audio开源的训练数据和模型为语音交互研究提供了重要资源。

官网：https://github.com/baichuan-inc/Baichuan-Audio

立即打开官网

数据统计

相关导航

Reverb ASR – Rev公司开源的自动语音识别和说话人分离模型

Reverb ASR是Rev公司推出的开源自动语音识别和说话...

VoiceCanvas – 开源AI语音合成平台，支持多语言、多音色、声音克隆服务

VoiceCanvas 是开源的多语言语音合成平台。基于...

Spirit LM – Meta推出多模态语言模型，无缝集成语音和文本

Spirit LM是由Meta AI团队推出的一种多模态语言...

Seed-VC – 零样本实现声音克隆和转换的技术

Seed-VC 是一种零样本声音转换技术，基于上下文学习实现...

Mini-Omni – 开源的端到端实时语音对话大模型

Mini-Omni 是一个开源的端到端语音对话模型，具备实时...

百聆 – AI语音对话助手，端到端时延低至800ms

百聆(Bailing)是开源的语音对话助手，基于语音识别 ...

Kokoro-TTS – 轻量级文本转语音模型，支持多语言多语音风格生成

Kokoro-TTS 是 hexgrad 开发的轻量级文本...

Orpheus TTS – 开源AI语音合成系统，支持多种语音风格

Orpheus TTS 是基于 Llama-3b 架构的开源...