EMO2 – 阿里研究院推出的音频驱动头像视频生成技术

4个月前发布 97 00

EMO2 （End-Effector Guided Audio-Driven Avatar Video Generation）是阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术，全称为“末端效应器引导的音频驱动头像视频生成”。通过音频输入和一张静态人像照片，生成富有表现力的动态视频。核心创新在于将音频信号与手部动作和面部表情相结合...

收录时间：

2025-12-16

打开网站手机查看

EMO2 – 阿里研究院推出的音频驱动头像视频生成技术

EMO2 – 阿里研究院推出的音频驱动头像视频生成技术

EMO2 （End-Effector Guided Audio-Driven Avatar Video Generation）是阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术，全称为“末端效应器引导的音频驱动头像视频生成”。通过音频输入和一张静态人像照片，生成富有表现力的动态视频。核心创新在于将音频信号与手部动作和面部表情相结合，通过扩散模型合成视频帧，生成自然流畅的动画。包括高质量的视觉效果、高精度的音频同步以及丰富的动作多样性。

官网：https://arxiv.org/pdf/2501.10687

立即打开官网

数据统计

相关导航

EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型...

tldraw – AI白板绘图工具，开源免费的无限画布和多种绘画功能

tldraw是开源的无限画布工具，提供易于使用的绘图和协...

DrawingSpinUp – AI驱动的2D绘画转化为3D效果的动画生成技术

DrawingSpinUp 是一种先进的3D动画生成技术，由...

Dawn AI – AI绘画工具，支持油画、动漫、印象派等多种绘画风格

Dawn AI是先进的 AI绘画工具，基于人工智能技术帮助...

Secta Labs – AI头像生成平台，通过少量自拍照生成数百张不同风格的头像

Secta Labs 是AI头像生成平台，产品核心基于 AI...

OminiControl – AI图像生成框架，实现图像主题控制和空间精确控制

OminiControl是高度通用且参数高效的图像生成框架...

ZenCtrl – Fotographer AI 推出的商品图生成AI工具

ZenCtrl 是 Fotographer AI 推出的 A...

图趣AI – AI绘画应用，输入创意灵感，模拟生成多风格视觉内容

图趣AI是基于AI技术的绘画软件，能根据用户的文字描述...