JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

4个月前发布 138 00

JoyGen是京东科技和香港大学推出的，音频驱动的3D说话人脸视频生成框架，专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图，驱动唇部运动的生成，用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集，在开源的HDTF数据集上验证其优越性能。实验结果表...

收录时间：

2025-12-16

打开网站手机查看

JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

JoyGen是京东科技和香港大学推出的，音频驱动的3D说话人脸视频生成框架，专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图，驱动唇部运动的生成，用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集，在开源的HDTF数据集上验证其优越性能。实验结果表明，JoyGen在唇部与音频同步和视觉质量方面均达到行业领先水平，为说话人脸视频编辑领域提供了新的技术解决方案。

官网：https://github.com/JOY-MM/JoyGen

立即打开官网

数据统计

相关导航

Follow-Your-Canvas – 腾讯与清华合作推出的高分辨率视频扩展技术

Follow-Your-Canvas 是由腾讯混元团队与清华...

AnimateAnything – 浙江大学联合北航推出的统一可控视频生成技术

AnimateAnything是浙江大学和北京航空航天大学研...

WorldSense – 小红书联合上海交大推出的多模态全面评测新基准

WorldSense是小红书和上海交通大学推出的，用在评估多...

Morphik – 开源的多模态检索增强生成工具

Morphik 是开源的多模态检索增强生成（RAG）工具，专...

点点 – 小红书推出的 AI 搜索助手，主打生活场景

点点是小红书推出的 AI搜索助手，主打生活服务场景的聚合搜...

Pyramid-Flow – 北大、快手、北邮联合开源的AI视频生成模型

Pyramid-Flow是一种先进的视频生成模型，由北京大学...

Subtitle Edit – 免费开源的多功能字幕编辑器

Subtitle Edit是一款免费开源的多功能字幕编辑器...

UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal是香港大学和Adobe研究院共同推出的框架，专...