MinT – 生成顺序事件的文本转视频模型，灵活控制时间戳

4个月前发布 105 00

MinT（Mind the Time）是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架，基于精确的时间控制，根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码（ReRoPE），让模型能将特定的文本提示与视频中的相应时间段关联起来，确保事件按顺序发生，控制每个事件的持续时间。作为首...

收录时间：

2025-12-16

打开网站手机查看

MinT – 生成顺序事件的文本转视频模型，灵活控制时间戳

MinT – 生成顺序事件的文本转视频模型，灵活控制时间戳

MinT（Mind the Time）是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架，基于精确的时间控制，根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码（ReRoPE），让模型能将特定的文本提示与视频中的相应时间段关联起来，确保事件按顺序发生，控制每个事件的持续时间。作为首个提供视频中事件时间控制的模型，MinT在生成连贯、动态连接的事件方面超越现有的开源模型，为视频内容创作带来新的灵活性和控制能力。

官网：https://arxiv.org/pdf/2412.05263v1

立即打开官网

数据统计

相关导航

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型

VITRON是Skywork AI、新加坡国立大学和南洋理工...

Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型，具...

LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型

LongLLaVA是的多模态大型语言模型（MLLM），是香港...

MacWhisper – AI音频转文字工具，支持macOS平台

MacWhisper 是一款 AI音频转文字工具，基于 O...

CustomCrafter – 腾讯联合浙大推出的自定义视频生成框架

CustomCrafter 是腾讯和浙江大学联合提出的自定义...

MarDini – Meta联合KAUST推出的视频生成扩散模型

MarDini是新型的视频扩散模型，融合掩码自回归（MAR...

V-JEPA：Meta推出的视觉模型，可以通过观看视频来学习理解物理世界

V-JEPA（Video Joint-Embedding P...

AI Chinese – AI双语教中文应用，模拟中国真人老师在线授课

AI Chinese是嗨你好教育推出的AI双语教学中文学习平...