AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架

3个月前发布 75 00

AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架，能将任意参考角色图像与目标驱动视频相结合，生成高质量的角色视频。AnyCharV基于两阶段训练策略实现精细到粗略的引导：第一阶段用细粒度分割掩码和姿态信息进行自监督合成；第二阶段用自增强训练和粗粒度掩码优化角色细节保留。AnyCharV ...

收录时间：

2025-12-16

打开网站手机查看

AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架

AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架

AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架，能将任意参考角色图像与目标驱动视频相结合，生成高质量的角色视频。AnyCharV基于两阶段训练策略实现精细到粗略的引导：第一阶段用细粒度分割掩码和姿态信息进行自监督合成；第二阶段用自增强训练和粗粒度掩码优化角色细节保留。AnyCharV 在实验中展现出优越的性能，能自然地保留角色的外观细节，支持复杂的人-物交互和背景融合。AnyCharV能与文本到图像（T2I）和文本到视频（T2V）模型生成的内容结合，具有很强的泛化能力。

官网：https://github.com/AnyCharV/AnyCharV

立即打开官网

数据统计

相关导航

CogVideoX-Fun – 基于CogVideoX的整合包，支持生成无限长度的视频

CogVideoX-Fun是一个基于CogVideoX结合E...

Stable Virtual Camera – Stability AI 等机构推出的 AI 模型，2D图像转3D视频

Stable Virtual Camera 是 Stabil...

VidTok – 微软开源的视频分词器，支持连续和离散分词化

VidTok（Video Tokenizer）是微软开源的先...

ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

ObjectMover 是香港大学和 Adobe Resea...

LatentSync – 字节联合北交大开源的端到端唇形同步框架

LatentSync是字节跳动、北京交通大学联合推出的端到端...

Lumina-Video – 上海 AI Lab 和港中文推出的视频生成框架

Lumina-Video是上海 AI Lab 和香港中文大学...

YT Navigator – AI YouTube 内容搜索工具，自然语言查询定位关键信息

YT Navigator 是 AI 驱动的 YouTube ...

Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略

Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的...