JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

1个月前发布 29 00

JoyHallo 是京东开源的 AI数字人 模型,专为普通话设计,能根据音频生成逼真的说话视频。特别适合处理普通话的复杂口型和语调,具有跨语言生成视频的能力。JoyHallo 提供了一个开源的数据集和模型训练方法,使用户可以生成普通话和英语的说话人视频。项目基于中文wav2vec2模型进行音频特征嵌入,采用半解耦结构来提升推理速度,提高了...

收录时间:
2025-12-16
JoyHallo – 京东推出的音频驱动视频生成AI数字人模型JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

JoyHallo 是京东开源的 AI数字人 模型,专为普通话设计,能根据音频生成逼真的说话视频。特别适合处理普通话的复杂口型和语调,具有跨语言生成视频的能力。JoyHallo 提供了一个开源的数据集和模型训练方法,使用户可以生成普通话和英语的说话人视频。项目基于中文wav2vec2模型进行音频特征嵌入,采用半解耦结构来提升推理速度,提高了14.3%。

官网:https://github.com/jdh-algo/JoyHallo


立即打开官网

数据统计

相关导航