STIV – 苹果公司推出的视频生成大模型

4个月前发布 151 00

STIV（Scalable Text and Image Conditioned Video Generation）是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数，能处理文本到视频（T2V）和文本图像到视频（TI2V）任务，基于联合图像-文本分类器自由引导（JIT-CFG）提升视频生成质量。STIV模型基于PixArt-Al...

收录时间：

2025-12-16

打开网站手机查看

STIV – 苹果公司推出的视频生成大模型

STIV – 苹果公司推出的视频生成大模型

STIV（Scalable Text and Image Conditioned Video Generation）是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数，能处理文本到视频（T2V）和文本图像到视频（TI2V）任务，基于联合图像-文本分类器自由引导（JIT-CFG）提升视频生成质量。STIV模型基于PixArt-Alpha架构，融合时空注意力机制、旋转位置编码（RoPE）和流匹配训练目标，增强视频生成的稳定性和效率。STIV支持多种下游应用，如视频预测、帧插值和长视频生成等。

官网：https://huggingface.co/papers/2412.07730

立即打开官网

数据统计

相关导航

Uni-AdaFocus – 清华大学推出通用的高效视频理解框架

Uni-AdaFocus是清华大学自动化系的研究团队推出的通...

HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

HMA（Heterogeneous Masked Autor...

I2VGen-XL：阿里推出的图像到视频生成模型

I2VGen-XL 是阿里巴巴达摩院推出的一款开源的图像到视...

See3D – 智源研究院开源的无标注视频学习3D生成模型

See3D（See Video, Get 3D）是北京智源人...

StoryDiffusion – 生成一致性图像和视频序列的开源AI框架

StoryDiffusion是一个先进的AI图像和视频生成框...

DragAnything – 快手联合浙大等机构开源的可控视频生成方法

DragAnything 是快手联合浙江大学和新加坡国立大学...

Sa2VA – 字节跳动等机构开源的多模态大语言模型

Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大...

Step-Video-T2V – 阶跃星辰开源的文本到视频模型

Step-Video-T2V 是阶跃星辰团队推出的开源文本...