Phantom – 字节跳动推出的主体一致视频生成框架

4个月前发布 103 00

Phantom是字节跳动智能创作团队推出的用在主体一致视频生成（Subject-to-Video, S2V）的框架。基于跨模态对齐技术，结合文本和图像提示，从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的文本到视频（T2V）和图像到视频（I2V）架构，重新设计了联合文本-图像注入模型，基于文本-图像...

收录时间：

2025-12-16

打开网站手机查看

Phantom – 字节跳动推出的主体一致视频生成框架

Phantom – 字节跳动推出的主体一致视频生成框架

Phantom是字节跳动智能创作团队推出的用在主体一致视频生成（Subject-to-Video, S2V）的框架。基于跨模态对齐技术，结合文本和图像提示，从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的文本到视频（T2V）和图像到视频（I2V）架构，重新设计了联合文本-图像注入模型，基于文本-图像-视频三元组数据学习跨模态对齐。Phantom框架支持单主体和多主体参考，特别在人类生成任务中强调主体一致性，覆盖现有的身份保留视频生成任务，提供增强优势。

官网：https://github.com/Phantom-video/Phantom

立即打开官网

数据统计

相关导航

Pollo AI – 一站式AI图像和视频创作平台

Pollo AI 是新加坡公司 HIX.AI 推出的一站式A...

PyVideoTrans – 开源的视频翻译和配音工具，支持多种语言

PyVideoTrans 是开源的视频翻译配音工具，将视频内...

JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

JoyHallo 是京东开源的 AI数字人模型，专为普通话...

MIMO – 阿里智能研究院推出的可控角色AI视频合成框架

MIMO是阿里巴巴集团智能计算研究所推出的可控角色视频合成的...

FocuSee – 屏幕录制AI工具，自动跟踪鼠标智能运镜

FocuSee是AI驱动的屏幕录制工具，支持在macOS和W...

Video-T1 – 清华联合腾讯推出的视频生成技术

Video-T1 是清华大学和腾讯的研究人员共同推出的视频...

剪小映 – 抖音推出的AI视频剪辑应用

剪小映是抖音推出的 AI视频剪辑应用，专为零基础用户设计...

OmniParse – AI数据解析平台，提取和解析任何非结构化数据

OmniParse是数据解析平台，将非结构化数据转换为结构化...