EMO2 – 阿里研究院推出的音频驱动头像视频生成技术

1个月前发布 26 00

EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院开发的音频驱动头像 视频生成 技术,全称为“末端效应器引导的音频驱动头像视频生成”。通过音频输入和一张静态人像照片,生成富有表现力的动态视频。核心创新在于将音频信号与手部动作和面部表情相结合...

收录时间:
2025-12-16
EMO2 – 阿里研究院推出的音频驱动头像视频生成技术EMO2 – 阿里研究院推出的音频驱动头像视频生成技术

EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院开发的音频驱动头像 视频生成 技术,全称为“末端效应器引导的音频驱动头像视频生成”。通过音频输入和一张静态人像照片,生成富有表现力的动态视频。核心创新在于将音频信号与手部动作和面部表情相结合,通过扩散模型合成视频帧,生成自然流畅的动画。 包括高质量的视觉效果、高精度的音频同步以及丰富的动作多样性。

官网:https://arxiv.org/pdf/2501.10687


立即打开官网

数据统计

相关导航