Step-Audio – 阶跃星辰开源的语音交互模型

4个月前发布 105 00

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型，能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地进行高质量对话。Step-Audio基于130B参数的统一模型，将语音理解与生成相结合，支持语音识别、对话、语音合成等功能。Step-Audio 的核心优势包括：高效的语音数据生成引...

收录时间：

2025-12-16

打开网站手机查看

Step-Audio – 阶跃星辰开源的语音交互模型

Step-Audio – 阶跃星辰开源的语音交互模型

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型，能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地进行高质量对话。Step-Audio基于130B参数的统一模型，将语音理解与生成相结合，支持语音识别、对话、语音合成等功能。Step-Audio 的核心优势包括：高效的语音数据生成引擎、支持多种情感和方言的精细语音控制能力，增强的工具调用和角色扮演功能，有效处理复杂任务。在性能方面，Step-Audio 在多个基准测试中表现出色，在指令遵循和复杂语音交互场景中展现显著的领先优势。

官网：https://github.com/stepfun-ai/Step-Audio

立即打开官网

数据统计

相关导航

Dinox – AI语音笔记应用，智能生成笔记标题自动双链

Dinox是基于AI技术的语音笔记应用，通过实时语音转录功能...

Westlake-Omni – 西湖心辰开源的中文情感端到端语音交互模型

Westlake-Omni 是西湖心辰推出的全球首个开源中文...

Ciallo TTS – 在线AI文本转语音工具，支持长文本自动分段处理

Ciallo TTS是开源的在线文本转语音工具，支持超过...

VITA-Audio – 开源的端到端多模态语音大模型，低延迟、推理快

VITA-Audio 是开源的端到端多模态语音大模型，具有低...

Megrez-3B-Omni – 无问芯穹开源的端侧全模态理解模型

Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模...

RealtimeSTT – AI实时语音转文本库，自动检测说话的开始与结束

RealtimeSTT是开源的实时语音转文本库，专为低延...

MinMo – 阿里通义实验室推出的多模态语音交互大模型

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出...

Audio-SDS – NVIDIA推出的扩展文本条件音频扩散模型

Audio-SDS是NVIDIA AI研究团队推出的创新技术...