Fugatto – 英伟达推出的多功能AI音频生成模型

4个月前发布 106 00

Fugatto是英伟达（NVIDIA）推出的音频合成和转换模型，全称为”Foundational Generative Audio Transformer Opus 1″。模型能根据文本提示生成音频或视频，接收并修改现有的音频文件。Fugatto模型具有强大的能力，例如将钢琴旋律转换成人声演唱版本，或者改变口语录音中的口音和情绪表达。在音...

收录时间：

2025-12-16

打开网站手机查看

Fugatto – 英伟达推出的多功能AI音频生成模型

Fugatto – 英伟达推出的多功能AI音频生成模型

Fugatto是英伟达（NVIDIA）推出的音频合成和转换模型，全称为”Foundational Generative Audio Transformer Opus 1″。模型能根据文本提示生成音频或视频，接收并修改现有的音频文件。Fugatto模型具有强大的能力，例如将钢琴旋律转换成人声演唱版本，或者改变口语录音中的口音和情绪表达。在音频编辑和制作领域具有极高的应用价值。Fugatto模型的架构基于增强型的Transformer模型，采用了自适应层归一化等特定修改，支持复杂的组合指令。

官网：https://github.com/fugatto/fugatto.github.io/blob/main/index.md

立即打开官网

数据统计

相关导航

PyVideoTrans – 开源的视频翻译和配音工具，支持多种语言

PyVideoTrans 是开源的视频翻译配音工具，将视频内...

cogvlm2-llama3-caption – 智普AI开源的视频标注模型，生成文本描述

cogvlm2-llama3-caption模型是一个基于C...

HunyuanVideo-Avatar – 腾讯混元推出的语音数字人模型

HunyuanVideo-Avatar是腾讯混元团队与腾讯音...

SmoothCache – Roblox 和女王大学推出用于DiT的通用推理加速技术

SmoothCache 是用在Diffusion Trans...

X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州...

AudioX – 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压...

VideoReward – 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型

VideoReward 是香港中文大学、清华大学、快手科技等...

HuggingSnap – Hugging Face 推出的 AI 助手，能离线识别视觉内容

HuggingSnap 是 Hugging Face 推出的...