AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频

1个月前发布 26 00

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出。核心创新在于多模态掩码训练策略,通过随机掩码输入模态,迫使模型从不完整的输入中学习,增强跨模态表示能力。官网:https://github.com/Zeyue...

收录时间:
2025-12-16
AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出。核心创新在于多模态掩码训练策略,通过随机掩码输入模态,迫使模型从不完整的输入中学习,增强跨模态表示能力。

官网:https://github.com/ZeyueT/AudioX


立即打开官网

数据统计

相关导航