MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

4个月前发布 133 00

MMAudio是先进视频到音频合成技术，基于多模态联合训练，让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块，确保生成的音频与视频帧精确匹配，实现高度同步。MMAudio适用于多种应用场景，包括影视制作和游戏开发，根据视频内容或文本描述生成相应的音频，提升用户体验。官网：https://github.com/hkc...

收录时间：

2025-12-16

打开网站手机查看

MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio是先进视频到音频合成技术，基于多模态联合训练，让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块，确保生成的音频与视频帧精确匹配，实现高度同步。MMAudio适用于多种应用场景，包括影视制作和游戏开发，根据视频内容或文本描述生成相应的音频，提升用户体验。

官网：https://github.com/hkchengrex/MMAudio

立即打开官网

数据统计

相关导航

AnchorCrafter – 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是基于扩散模型的智能视频制作系统...

AtomoVideo – 阿里推出的高保真图像到视频生成框架

AtomoVideo是由阿里巴巴的研究团队提出的一个高保真图...

TimeSuite – 上海AI Lab推出的提升MLLMs在长视频理解处理的设计框架

TimeSuite是上海AI Lab推出的新型框架，能提升多...

Seaweed APT2 – 字节跳动推出的AI视频生成模型

Seaweed APT2是字节跳动推出的创新的 AI视频生成...

Hallo – 复旦百度等开源的AI对口型肖像视频生成框架

Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大...

DreamVideo-2 – 复旦和阿里联合多机构推出的零样本视频定制生成框架

DreamVideo-2是创新的零样本视频定制框架，复旦大学...

CogVideoX-5B-I2V – 智谱 AI 开源的图生视频生成模型

CogVideoX-5B-I2V 是智谱 AI 开源的一款图...

HiFiVFS – 腾讯联合VIVO推出的高保真视频换脸框架

HiFiVFS（High Fidelity Video Fa...