Draw an Audio – 中科院联合美团推出的视频生成音频系统

4个月前发布 114 00

Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果，类似于电影制作中的 Foley 艺术。系统分析视频结合多种输入指令，如文本、视频遮罩和响度信号，生成与视频内容、时间和响度一致的音频。核心架构包括潜在扩散模型（LDM）、文本条件模型、掩码注意力模块（MAM...

收录时间：

2025-12-16

打开网站手机查看

Draw an Audio – 中科院联合美团推出的视频生成音频系统

Draw an Audio – 中科院联合美团推出的视频生成音频系统

Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果，类似于电影制作中的 Foley 艺术。系统分析视频结合多种输入指令，如文本、视频遮罩和响度信号，生成与视频内容、时间和响度一致的音频。核心架构包括潜在扩散模型（LDM）、文本条件模型、掩码注意力模块（MAM）和时间-响度模块（TLM），组件共同确保音频生成的高质量和准确性。为视频内容创作者提供了一个强大的工具，声音设计过程更加高效和灵活。

官网：https://arxiv.org/pdf/2409.06135

立即打开官网

数据统计

相关导航

MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio是先进视频到音频合成技术，基于多模态联合训...

Hummingbird-0 – Tavus 推出的AI口型同步模型

Hummingbird-0 是 Tavus 推出的 AI口型...

VisoMaster – AI换脸和编辑软件，支持图片和视频高质量换脸

VisoMaster 是基于 AI 技术的换脸和编辑软件...

Diffuse – AI视频编辑工具，提供个性化视频生成和编辑功能

Diffuse是基于 AI 技术的视频编辑器，专注于为用...

LosslessCut – 开源的AI视频编辑工具，无损精准剪辑与合并音视频文件

LosslessCut是一款开源的视频编辑工具，用于快速且无...

Silimini – AI动态照片应用，静态照片转换成生动的动态表情

Silimini是创新的AI动态照片应用，基于动态表情模板和...

ComfyUI-MochiEdit – 开源的AI视频编辑工具，支持视频转视频和局部编辑

ComfyUI-MochiEdit是基于ComfyUI和Ge...

Skywork – 昆仑万维面向全球推出的天工超级智能体

Skywork 是昆仑万维推出的天工超级智能体（Skywor...