StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统
StoryTeller是字节跳动、上海交通大学和北京大学共同...
SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的 视频生成 与编辑框架。在关键帧上绘制草图,结合文本提示,实现对视频的空间布局和运动的精细控制。框架基于 DiT 视频生成模型,设计高效的草图控制网络,包含草图控制块和帧间注意力机制,能将稀疏的关键帧草图条件传播到所有视频帧中。SketchVideo 支持对真实或合成视频的细粒度编辑,基于视频插入模块和潜在融合技术,确保新内容与原始视频在空间和时间上的一致性,保留未编辑区域的细节。