LLaVA-OneVision – 字节跳动推出的开源多模态AI模型
LLaVA-OneVision是字节跳动推出开源的多模态AI...
GenXD是新加坡国立大学和微软公司共同推出的3D-4D联合生成框架,能从任意数量的条件图像中生成高质量的3D和4D场景。框架用一个数据整理流程从视频中提取相机姿态和物体运动强度,基于这些信息及大规模4D数据集CamVid-30K训练模型。GenXD基于多视角时序模块解耦相机和物体的运动,用掩码潜在条件支持多种视角的条件生成,实现在单一模型中处理多种3D和4D生成任务。