Phantom – 字节跳动推出的主体一致视频生成框架

1个月前发布 26 00

Phantom是字节跳动智能创作团队推出的用在主体一致 视频生成 (Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的 文本到视频 (T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像...

收录时间:
2025-12-16
Phantom – 字节跳动推出的主体一致视频生成框架Phantom – 字节跳动推出的主体一致视频生成框架

Phantom是字节跳动智能创作团队推出的用在主体一致 视频生成 (Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的 文本到视频 (T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像-视频三元组数据学习跨模态对齐。Phantom框架支持单主体和多主体参考,特别在人类生成任务中强调主体一致性,覆盖现有的身份保留视频生成任务,提供增强优势。

官网:https://github.com/Phantom-video/Phantom


立即打开官网

数据统计

相关导航