SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型
SpatialVLA 是上海 AI Lab、中国电信人工智能...
DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的 漫画生成 框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态大型语言模型(MLLM),实现对漫画中多角色外观和互动的精确控制。框架用掩码交叉注意力机制和MLLM适配器,根据文本提示动态调整角色特征,包括表情、姿势和动作,生成具有连贯性和视觉吸引力的漫画面板。DiffSensei引入MangaZero数据集,支持多角色、多状态的漫画生成任务。