JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

4个月前发布 109 00

JoyHallo 是京东开源的 AI数字人模型，专为普通话设计，能根据音频生成逼真的说话视频。特别适合处理普通话的复杂口型和语调，具有跨语言生成视频的能力。JoyHallo 提供了一个开源的数据集和模型训练方法，使用户可以生成普通话和英语的说话人视频。项目基于中文wav2vec2模型进行音频特征嵌入，采用半解耦结构来提升推理速度，提高了...

收录时间：

2025-12-16

打开网站手机查看

JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

JoyHallo 是京东开源的 AI数字人模型，专为普通话设计，能根据音频生成逼真的说话视频。特别适合处理普通话的复杂口型和语调，具有跨语言生成视频的能力。JoyHallo 提供了一个开源的数据集和模型训练方法，使用户可以生成普通话和英语的说话人视频。项目基于中文wav2vec2模型进行音频特征嵌入，采用半解耦结构来提升推理速度，提高了14.3%。

官网：https://github.com/jdh-algo/JoyHallo

立即打开官网

数据统计

相关导航

Boximator – 字节推出的控制视频生成中对象运动的框架

Boximator是由字节跳动的研究团队开发的一种视频合成技...

Voice-Pro – 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Voice-Pro是开源的多功能音频处理工具，集成语音转文字...

Seaweed APT – 字节跳动推出的单步图像和视频生成项目

Seaweed APT是字节跳动推出的对抗性后训练（Adve...

EmoLLM – 专注于心理健康支持的大语言模型

EmoLLM 是专注于心理健康支持的大型语言模型，通过多模态...

Playmate – 趣丸科技团队推出的人脸动画生成框架

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框...

InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型

InstructMove是东京大学和Adobe公司联合推出的...

story-flicks – AI视频生成工具，一键生成高清故事短视频

story-flicks 是基于AI大模型的项目，支持一键生...

腾讯混元文生视频 – 腾讯推出的AI视频生成模型

腾讯混元文生视频是基于腾讯 AI视频生成模型推出的AI视频...