HunyuanVideo-Avatar – 腾讯混元推出的语音数字人模型

4个月前发布 155 00

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型，基于多模态扩散Transformer架构，能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块，可消除训练与推理间的条件不匹配，确保角色一致性。音频情感模块（AEM）能从情感参考图像中提取情感线索，实现情感风格控制。面部感知音频适...

收录时间：

2025-12-16

打开网站手机查看

HunyuanVideo-Avatar – 腾讯混元推出的语音数字人模型

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型，基于多模态扩散Transformer架构，能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块，可消除训练与推理间的条件不匹配，确保角色一致性。音频情感模块（AEM）能从情感参考图像中提取情感线索，实现情感风格控制。面部感知音频适配器（FAA）可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景，可应用于短视频创作、电商广告等。

官网：https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

立即打开官网

数据统计

相关导航

Movie Gen – Meta推出文本驱动的AI视频生成与编辑工具

Movie Gen 是 Meta 推出的 AI视频生成工具 ...

HuggingSnap – Hugging Face 推出的 AI 助手，能离线识别视觉内容

HuggingSnap 是 Hugging Face 推出的...

M2UGen – 腾讯联合国立大学推出多模态音乐理解和生成框架

M2UGen是先进的多模态音乐理解和生成框架，由腾讯PCG ...

CustomCrafter – 腾讯联合浙大推出的自定义视频生成框架

CustomCrafter 是腾讯和浙江大学联合提出的自定义...

FunClip – 阿里达摩院开源的AI自动视频剪辑工具

FunClip是阿里达摩院通义实验室推出的一款完全开源、本地...

WorldCraft – 港科大推出的3D虚拟世界创建和定制系统

WorldCraft是香港科技大学推出的基于大型语言模型（L...

Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

Vid2World是清华大学联合重庆大学推出的创新框架，支持...

BoldVoice – AI英语口音训练应用，AI实时评分提升发音水平

BoldVoice 是专注于英语口音训练的应用程序，帮助非英...