Fish Agent – Fish Audio推出的端到端语音处理模型

4个月前发布 98 00

Fish Agent是 Fish Audio 推出的创新的端到端语音处理模型，集成自动语音识别（ASR）和文本到语音（TTS）技术，无需传统的语义编码器/解码器，实现语音到语音的直接转换。模型经过700,000小时的多语言音频内容训练，支持包括英语、中文在内的多种语言，精准捕捉和生成环境音频信息。Fish Agent目前正处于测试阶段，基...

收录时间：

2025-12-16

打开网站手机查看

Fish Agent – Fish Audio推出的端到端语音处理模型

Fish Agent – Fish Audio推出的端到端语音处理模型

Fish Agent是 Fish Audio 推出的创新的端到端语音处理模型，集成自动语音识别（ASR）和文本到语音（TTS）技术，无需传统的语义编码器/解码器，实现语音到语音的直接转换。模型经过700,000小时的多语言音频内容训练，支持包括英语、中文在内的多种语言，精准捕捉和生成环境音频信息。Fish Agent目前正处于测试阶段，基于不断的优化和改进，为用户提供更准确、更自然的语音交互体验。

官网：https://github.com/fishaudio/fish-speech/blob/main/Start_Agent.md

立即打开官网

数据统计

相关导航

Ciallo TTS – 在线AI文本转语音工具，支持长文本自动分段处理

Ciallo TTS是开源的在线文本转语音工具，支持超过...

Open-LLM-VTuber – AI数字人语音交互项目，支持实时语音对话和视觉感知

Open-LLM-VTuber 是开源的跨平台语音交互 AI...

DD星球 – AI虚拟社交应用，定制AI伙伴进行实时对话交流

DD星球是数命科技推出的 AI虚拟社交应用，为用户提供一个...

Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型

Parakeet TDT 0.6B 是英伟达推出的开源自动 ...

OuteTTS – 开源的文本到语音合成项目，基于纯语言建模方法生成语音

OuteTTS是开源的文本到语音（TTS）项目，基于纯语言建...

Lobe Chat – 免费开源的高性能AI聊天机器人框架

Lobe Chat是一个免费开源的高性能 AI聊天机器人框...

蓝心大模型 – vivo推出的全新自研通用大模型矩阵，30亿端侧大模型

蓝心大模型是vivo发布的全新自研通用大模型矩阵，包括语言大...

SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集

SeniorTalk 是智源研究院联合南开大学计算机学院人类...