VILA-U – 融合多模态理解和生成的统一基础模型
VILA-U是集成视频、图像、语言理解和生成的统一基础模型...
LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练,有效捕捉复杂场景中的物体运动和交互,基于用户友好的推理流程简化3D轨迹输入,让视频生成技术更加先进和易用。LeviTor的引入为3D物体轨迹控制铺平道路,拓宽创意应用范围,适用于更广泛的用户群体。