VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术
VideoRefer是浙江大学和阿里达摩学院联合推出的,专门...
OmniHuman是字节跳动推出的端到端多模态条件化人类 视频生成 框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略,克服以往方法因高质量数据稀缺而导致的性能瓶颈,支持任意宽高比的图像输入(包括肖像、半身和全身图像),能适应多种场景。OmniHuman 在歌唱、对话、手势处理等方面表现出色,支持多种视觉和音频风格,同时兼容音频、视频及组合驱动,生成高质量的视频内容。