MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目
MMAudio是先进视频到 音频合成 技术,基于多模态联合训...
ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型的跨帧一致性学习能力,通过微调模型将其迁移到图像编辑任务。模型采用序列到序列建模,输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像。