VASA-1 – 微软推出的静态照片对口型视频生成框架

4个月前发布 128 00

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架，能够根据单张静态人脸照片和一段语音音频，实时生成逼真的3D说话面部动画。该技术通过精确的唇音同步、丰富的面部表情细节和自然的头部动作，创造出高度真实感和活力的虚拟角色。VASA-1的核心创新在于其全貌面部动态和头部运动生成模型，该模型在面部潜在空间中工作...

收录时间：

2025-12-16

打开网站手机查看

VASA-1 – 微软推出的静态照片对口型视频生成框架

VASA-1 – 微软推出的静态照片对口型视频生成框架

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架，能够根据单张静态人脸照片和一段语音音频，实时生成逼真的3D说话面部动画。该技术通过精确的唇音同步、丰富的面部表情细节和自然的头部动作，创造出高度真实感和活力的虚拟角色。VASA-1的核心创新在于其全貌面部动态和头部运动生成模型，该模型在面部潜在空间中工作，能够高效地生成高分辨率的视频，同时支持在线生成和低延迟。

官网：https://www.microsoft.com/en-us/research/project/vasa-1/

立即打开官网

数据统计

相关导航

Motionshop – 阿里推出的AI角色动画项目，可替换视频人物为3D

Motionshop是阿里巴巴智能计算研究院（XR实验室和T...

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

StreamBridge 是苹果公司与复旦大学联合推出的端侧...

Stable Video 3D (SV3D) – 多视角合成和3D生成模型，由Stability AI推出

Stable Video 3D（简称SV3D）是由Stabi...

VideoPoet – 谷歌推出的AI视频生成模型

VideoPoet是由谷歌的研究团队开发的一种基于大模型的A...

TEN Agent – 开源的实时多模态 AI 代理框架

TEN Agent是集成OpenAI Realtime AP...

Champ – 基于3D的人物图片转视频动画模型

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出...

ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型

ConsisID是北京大学和鹏城实验室等机构推出的文本到视频...

LCVD – 川大推出的光照可控肖像动画生成框架

LCVD（Lighting Controllable Vid...