Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

4个月前发布 151 00

Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术，能够利用简短的15秒音频样本和文本输入，生成接近原声的自然听起来的语音。该项技术自2022年底开发以来，已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。Voice Engine的应用前景广泛，包括为儿童和非读者提供阅读辅助、翻译内容以触...

收录时间：

2025-12-16

打开网站手机查看

Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术，能够利用简短的15秒音频样本和文本输入，生成接近原声的自然听起来的语音。该项技术自2022年底开发以来，已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。Voice Engine的应用前景广泛，包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流者、帮助恢复患者的声音等。同时，为确保技术的安全使用，OpenAI制定了严格的使用政策，防止声音冒充，并采取了包括水印追踪在内的多项安全措施。

官网：https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

立即打开官网

数据统计

相关导航

FireRedASR – 小红书开源的自动语音识别模型

FireRedASR 是小红书开源的工业级自动语音识别 ...

LLaMA-Omni – 中科院推出的低延迟高质量的语音交互模型

LLaMA-Omni 是中国科学院计算技术研究所和中国科学院...

F5-TTS – 上海交大推出开源的文本到语音（TTS）合成系统

F5-TTS是由上海交通大学开源的一款高性能文本到语音（TT...

TEN VAD – AI实时语音活动检测系统，低延迟、轻量级、高精度

TEN VAD 是高性能的实时语音活动检测系统，专为企业级应...

MinMo – 阿里通义实验室推出的多模态语音交互大模型

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出...

3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态...

Lobe Vidol – AI数字人交互平台，可与虚拟人和 3D 模型聊天互动

Lobe Vidol是开源的数字人创作平台，让每个人都能...

GPT-4o mini TTS – OpenAI 推出的文本转语音模型

GPT-4o mini TTS 是 OpenAI 推出的轻量...