MotionCLR – AI动作编辑模型,根据文本提示生成相应的动作序列
MotionCLR是基于注意力机制的人体动作生成和编辑模型...
Florence-VL是创新的多模态大型语言模型(MLLMs),是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示,能捕捉图像的不同层次和方面的视觉特征,适应多样的下游任务。Florence-VL引进深度-广度融合(DBFusion)技术,将不同深度和多个提示下提取的视觉特征,实现视觉与语言理解的深度融合。