MTVCrafter – 中科院联合中国电信等机构推出的人像动画生成框架
MTVCrafter是中国科学院深圳先进技术研究院计算机视觉...
OmniCam 是先进的多模态 视频生成 框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型(LLM)和视频扩散模型,能生成时空一致的视频内容。 通过三阶段训练策略,包括大规模模型训练、视频扩散模型训练以及强化学习微调,确保生成视频的准确性和连贯性。