Mini-LLaVA – 基于Llama 3.1的轻量级多模态大语言模型
Mini-LLaVA是一款轻量级的多模态大语言模型,由清华大...
SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的 视频生成 与编辑框架。在关键帧上绘制草图,结合文本提示,实现对视频的空间布局和运动的精细控制。框架基于 DiT 视频生成模型,设计高效的草图控制网络,包含草图控制块和帧间注意力机制,能将稀疏的关键帧草图条件传播到所有视频帧中。SketchVideo 支持对真实或合成视频的细粒度编辑,基于视频插入模块和潜在融合技术,确保新内容与原始视频在空间和时间上的一致性,保留未编辑区域的细节。