STIV – 苹果公司推出的视频生成大模型

1个月前发布 44 00

STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的 视频生成 大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2V)任务,基于联合图像-文本分类器自由引导(JIT-CFG)提升视频生成质量。STIV模型基于PixArt-Al...

收录时间:
2025-12-16
STIV – 苹果公司推出的视频生成大模型STIV – 苹果公司推出的视频生成大模型

STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的 视频生成 大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2V)任务,基于联合图像-文本分类器自由引导(JIT-CFG)提升视频生成质量。STIV模型基于PixArt-Alpha架构,融合时空注意力机制、旋转位置编码(RoPE)和流匹配训练目标,增强视频生成的稳定性和效率。STIV支持多种下游应用,如视频预测、帧插值和长视频生成等。

官网:https://huggingface.co/papers/2412.07730


立即打开官网

数据统计

相关导航