AI-Media2Doc – 开源AI图文创作助手,一键将音视频内容转为文档
AI-Media2Doc 是开源的音视频转文档工具,基于AI...
DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示 视频生成 方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。基于分析MM-DiT的注意力机制,DiTCtrl采用KV共享和潜在混合策略,实现不同提示间的平滑过渡,提升视频生成的连贯性和自然度。在新基准MPVBench上,DiTCtrl在保持计算效率的同时,取得最先进的性能,标志着多提示视频生成技术的重要进展。