HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架

4个月前发布 107 00

HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器（Diffusion Transformer，DiT），能在大规模数据集上训练，生成具有精细身体渲染的长序列人体运动视频。HumanDiT 的核心优势在于姿态引导机制，通过关键点扩散变换器（Keypoint-DiT）生成后续姿态序列，保证视...

收录时间：

2025-12-16

打开网站手机查看

HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架

HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架

HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器（Diffusion Transformer，DiT），能在大规模数据集上训练，生成具有精细身体渲染的长序列人体运动视频。HumanDiT 的核心优势在于姿态引导机制，通过关键点扩散变换器（Keypoint-DiT）生成后续姿态序列，保证视频中人体动作的连贯性和自然性。引入了前缀潜在参考策略，在长序列中保持个性化特征。 HumanDiT 支持多种视频分辨率和可变序列长度，适合长序列视频生成。基于姿态适配器实现给定序列的姿态转移，进一步提升了姿态对齐的准确性。

官网：https://arxiv.org/pdf/2502.04847

立即打开官网

数据统计

相关导航

The Matrix – 阿里联合港大等多所机构推出的AI基础世界模拟器

The Matrix是与电影同名的首个AI基础世界模拟器，是...

VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

VideoGigaGAN是由Adobe和马里兰大学的研究人员...

Skywork – 昆仑万维面向全球推出的天工超级智能体

Skywork 是昆仑万维推出的天工超级智能体（Skywor...

CineMaster – 快手推出的文本到视频生成框架，具备3D感知能力

CineMaster是快手推出的具备3D感知能力的文本到视...

BiliNote – 开源 AI 视频笔记工具，自动提取视频内容生成Markdown格式

BiliNote 是开源的 AI 视频笔记助手，支持基于哔哩...

JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

JoyHallo 是京东开源的 AI数字人模型，专为普通话...

HunyuanPortrait – 腾讯混元联合清华等机构推出的肖像动画生成框架

HunyuanPortrait 是腾讯 Hunyuan 团队...

Diffutoon – 阿里推出的AI将视频转卡通风格的框架

Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个...