ARTalk – 东京大学等机构推出的3D头部动画生成框架

4个月前发布 107 00

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架，基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生成。ARTalk用多尺度运动码本和滑动时间窗口技术，结合语音输入生成高质量的动画序列。ARTalk引入风格编码器，适应未见说话风格，生成具有独特个性的3D动画。ARTalk在唇部同步精度、表...

收录时间：

2025-12-16

打开网站手机查看

ARTalk – 东京大学等机构推出的3D头部动画生成框架

ARTalk – 东京大学等机构推出的3D头部动画生成框架

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架，基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生成。ARTalk用多尺度运动码本和滑动时间窗口技术，结合语音输入生成高质量的动画序列。ARTalk引入风格编码器，适应未见说话风格，生成具有独特个性的3D动画。ARTalk在唇部同步精度、表情自然性和风格一致性方面优于现有技术，具备实时性，适用于虚拟现实、游戏动画和人机交互等领域。

官网：https://arxiv.org/pdf/2502.20323

立即打开官网

数据统计

相关导航

Parler-TTS – Hugging Face开源的文本转语音模型

Parler-TTS是由Hugging Face推出的一款开...

Dinox – AI语音笔记应用，智能生成笔记标题自动双链

Dinox是基于AI技术的语音笔记应用，通过实时语音转录功能...

Hibiki – Kyutai Labs 推出的实时语音翻译模型

Hibiki是Kyutai Labs开源的用在同时语音翻译的...

悬河 – AI虚拟社交平台，与虚拟角色沉浸式文字或语音交流

悬河是 AI虚拟角色社交平台，支持用户与AI虚拟角色进行文...

OSUM – 西北工业大学开源的语音理解模型

OSUM（Open Speech Understanding...

RTranslator – 开源的离线、实时、多语言翻译应用程序

RTranslator 是一款开源、免费、离线实时翻译应用程...

Step-Audio – 阶跃星辰开源的语音交互模型

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音...

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开...