MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳

1个月前发布 26 00

MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件 视频生成 框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码(ReRoPE),让模型能将特定的文本提示与视频中的相应时间段关联起来,确保事件按顺序发生,控制每个事件的持续时间。作为首...

收录时间:
2025-12-16
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳

MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件 视频生成 框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码(ReRoPE),让模型能将特定的文本提示与视频中的相应时间段关联起来,确保事件按顺序发生,控制每个事件的持续时间。作为首个提供视频中事件时间控制的模型,MinT在生成连贯、动态连接的事件方面超越现有的开源模型,为视频内容创作带来新的灵活性和控制能力。

官网:https://arxiv.org/pdf/2412.05263v1


立即打开官网

数据统计

相关导航