StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

4个月前发布 146 00

StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型，旨在解决现有模型仅能生成16帧或24帧的高质量短视频，而当在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。StreamingT2V通过引入条件注意模块（CAM）和外观保持模块（APM）以及随机混合方法，实现了长视频（最长达1...

收录时间：

2025-12-16

打开网站手机查看

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型，旨在解决现有模型仅能生成16帧或24帧的高质量短视频，而当在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。StreamingT2V通过引入条件注意模块（CAM）和外观保持模块（APM）以及随机混合方法，实现了长视频（最长达1200帧、时长2分钟）的流畅生成，确保了时间上的连贯性和与文本描述的紧密对齐。该方法不仅提高了视频的质量，还使得视频内容更加丰富和动态，从而在长视频生成领域取得了显著进步。

官网：https://streamingt2v.github.io/

立即打开官网

数据统计

相关导航

OmAgent – Om AI联合浙大开源的多模态语言代理框架

OmAgent是Om AI和浙江大学滨江研究院联合开源的多模...

FreeScale – 无需微调的推理框架，提升扩散模型生成能力首次实现8K分辨率图像

FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出...

DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

DiTCtrl是基于多模态扩散变换器（MM-DiT）架构的多...

VXlive – AI语音社交应用，通过AI语音识别进行个性化互动

VXlive是以语音社交为核心的创新应用，主打语音聊天、直播...

Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型

Cosmos-Reason1 是NVIDIA推出的系列多模态...

CogVideoX-Fun – 基于CogVideoX的整合包，支持生成无限长度的视频

CogVideoX-Fun是一个基于CogVideoX结合E...

Apollo – Meta 联合斯坦福大学推出的大型多模态模型

Apollo是Meta和斯坦福大学合作推出的大型多模态模型...

Heygem – 硅基智能推出的开源数字人模型

Heygem 是硅基智能推出的开源数字人模型，专为 Wi...