EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型
EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型...
EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院开发的音频驱动头像 视频生成 技术,全称为“末端效应器引导的音频驱动头像视频生成”。通过音频输入和一张静态人像照片,生成富有表现力的动态视频。核心创新在于将音频信号与手部动作和面部表情相结合,通过扩散模型合成视频帧,生成自然流畅的动画。 包括高质量的视觉效果、高精度的音频同步以及丰富的动作多样性。