HunyuanVideo-Avatar – 腾讯混元推出的语音数字人模型

1个月前发布 42 00

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块,可消除训练与推理间的条件不匹配,确保角色一致性。音频情感模块(AEM)能从情感参考图像中提取情感线索,实现情感风格控制。面部感知音频适...

收录时间:
2025-12-16
HunyuanVideo-Avatar – 腾讯混元推出的语音数字人模型HunyuanVideo-Avatar – 腾讯混元推出的语音数字人模型

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块,可消除训练与推理间的条件不匹配,确保角色一致性。音频情感模块(AEM)能从情感参考图像中提取情感线索,实现情感风格控制。面部感知音频适配器(FAA)可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景,可应用于短视频创作、电商广告等。

官网:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar


立即打开官网

数据统计

相关导航