Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全...
OmniHuman是字节跳动推出的端到端多模态条件化人类 视频生成 框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略,克服以往方法因高质量数据稀缺而导致的性能瓶颈,支持任意宽高比的图像输入(包括肖像、半身和全身图像),能适应多种场景。OmniHuman 在歌唱、对话、手势处理等方面表现出色,支持多种视觉和音频风格,同时兼容音频、视频及组合驱动,生成高质量的视频内容。