CleanS2S – 流式语音到语音交互智能体原型,同时进行听和说
CleanS2S是一个流式语音到语音(S2S)交互智能体原型...
Parakeet TDT 0.6B 是英伟达推出的开源自动 语音识别 (ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算开销。模型在1秒内可转录60分钟音频,实时因子(RTFx)达3386,平均单词错误率(WER)仅为6.05%,在LibriSpeech-clean数据集上WER低至1.69%,位居Hugging Face Open ASR Leaderboard榜首。