AudioX – 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频

4个月前发布 108 00

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型，专门用于从任意内容生成音频和音乐。模型能处理多种输入模态，包括文本、视频、图像、音乐和音频，生成高质量的音频输出。核心创新在于多模态掩码训练策略，通过随机掩码输入模态，迫使模型从不完整的输入中学习，增强跨模态表示能力。官网：https://github.com/Zeyue...

收录时间：

2025-12-16

打开网站手机查看

AudioX – 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频

AudioX – 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型，专门用于从任意内容生成音频和音乐。模型能处理多种输入模态，包括文本、视频、图像、音乐和音频，生成高质量的音频输出。核心创新在于多模态掩码训练策略，通过随机掩码输入模态，迫使模型从不完整的输入中学习，增强跨模态表示能力。

官网：https://github.com/ZeyueT/AudioX

立即打开官网

数据统计

相关导航

VideoCaptioner – AI视频字幕处理工具，支持字幕样式调整和多格式导出

VideoCaptioner（中文名：卡卡字幕助手）是基于大...

FaceFusion – 开源AI换脸工具，支持多种高质量换脸模型

FaceFusion是开源的 AI换脸工具，支持图像和视频...

Ingredients – 多ID照片定制视频生成框架，基于多ID照片与视频扩散相结合

Ingredients是强大的框架，基于将多个特定身份（ID...

JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

JoyGen是京东科技和香港大学推出的，音频驱动的3D说话人...

VideoChat – 开源的实时数字人对话系统，首包延迟低至3秒

VideoChat是开源的实时数字人对话系统，支持语音输入和...

Tavus – AI视频生成平台，支持数字人克隆和实时对话

Tavus 是先进的个性化 AI视频生成平台，支持创建高度...

Social Media Agent – AI社交媒体内容管理工具，输入URL自动生成帖子

Social Media Agent是智能的社交媒体内容管理...

MetaHuman-Stream – 实时交互流式AI数字人技术

MetaHuman-Stream 是一项前沿的实时交互流式A...