Qwen2.5-VL – 阿里通义千问开源的视觉语言模型
Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型...
FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身份保持 视频生成 (IPT2V)框架,基于增强人脸知识生成高质量的身份一致视频。FantasyID基于扩散变换器(Diffusion Transformers),引入3D面部几何先验知识,确保视频合成中面部结构的稳定性和合理性。FantasyID基于多视角人脸增强策略,避免模型简单复制参考人脸,增加面部表情和头部姿态的动态性。FantasyID基于可学习的分层感知注入机制,将融合的2D和3D特征有选择地注入到扩散模型的每一层,平衡身份保留和动作动态性。