VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试
VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评...
VASA-1是由微软亚洲研究院提出的一个将静态照片转换为 对口型 动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。该技术通过精确的唇音同步、丰富的面部表情细节和自然的头部动作,创造出高度真实感和活力的虚拟角色。VASA-1的核心创新在于其全貌面部动态和头部运动生成模型,该模型在面部潜在空间中工作,能够高效地生成高分辨率的视频,同时支持在线生成和低延迟。