VideoAnydoor – 港大联合阿里达摩院等机构推出的零样本视频对象插入框架

4个月前发布 135 00

VideoAnydoor是香港大学、阿里巴巴集团达摩院、湖畔实验室、华中科技大学联合推出的零样本的视频对象插入框架，能将特定对象以高保真度和精确运动控制的方式插入到视频中。VideoAnydoor基于文本到视频的扩散模型，用ID提取器注入全局身份信息，用框序列指导整体运动。框架的核心是像素变形器模块，VideoAnydoor接受带有关键点...

收录时间：

2025-12-16

打开网站手机查看

VideoAnydoor – 港大联合阿里达摩院等机构推出的零样本视频对象插入框架

VideoAnydoor – 港大联合阿里达摩院等机构推出的零样本视频对象插入框架

VideoAnydoor是香港大学、阿里巴巴集团达摩院、湖畔实验室、华中科技大学联合推出的零样本的视频对象插入框架，能将特定对象以高保真度和精确运动控制的方式插入到视频中。VideoAnydoor基于文本到视频的扩散模型，用ID提取器注入全局身份信息，用框序列指导整体运动。框架的核心是像素变形器模块，VideoAnydoor接受带有关键点的参考图像和轨迹作为输入，根据轨迹变形像素细节，并与扩散U-Net融合以保留细节，支持精细的运动控制。VideoAnydoor结合视频和静态图像的训练策略，引入重权重建损失提升插入质量。

官网：https://arxiv.org/pdf/2501.01427

立即打开官网

数据统计

相关导航

EchoMimicV2 – 阿里推出的开源数字人项目，能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的半身人体 AI数字...

3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架

3DV-TON（Textured 3D-Guided Con...

JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

JoyGen是京东科技和香港大学推出的，音频驱动的3D说话人...

HunyuanVideo – 腾讯推出的开源视频生成模型，参数高达130亿

HunyuanVideo是腾讯开源的视频生成模型，拥有130...

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

OmniHuman是字节跳动推出的端到端多模态条件化人类视...

Snap Video – Snapchat公司推出的AI视频生成模型

Snap Video是由Snap（社交媒体Snapchat所...

Edify 3D – NVIDIA 推出的3D生成模型

Edify 3D 是 NVIDIA 推出的先进3D资产生成方...

Playmate – 趣丸科技团队推出的人脸动画生成框架

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框...