ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

4个月前发布 107 00

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型，解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例，利用预训练视频生成模型的跨帧一致性学习能力，通过微调模型将其迁移到图像编辑任务。模型采用序列到序列建模，输入包括原始图像、目标物体图像和...

收录时间：

2025-12-16

打开网站手机查看

ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型，解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例，利用预训练视频生成模型的跨帧一致性学习能力，通过微调模型将其迁移到图像编辑任务。模型采用序列到序列建模，输入包括原始图像、目标物体图像和指令图，输出为物体移动后的合成图像。

官网：https://arxiv.org/pdf/2503.08037

立即打开官网

数据统计

相关导航

SignLLM – 多语言手语生成模型，文字输入生成对应的手语视频

SignLLM 是创新的多语言手语生成模型，通过文字输入生成...

Qwen2.5-Omni-3B – 阿里 Qwen 团队推出的轻量级多模态 AI 模型

Qwen2.5-Omni-3B 是阿里巴巴 Qwen 团队推...

HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集

HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频...

VILA-U – 融合多模态理解和生成的统一基础模型

VILA-U是集成视频、图像、语言理解和生成的统一基础模型...

Oryx – 腾讯联合清华和南洋理工大学推出的多模态大语言模型

Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型...

腾讯混元文生视频 – 腾讯推出的AI视频生成模型

腾讯混元文生视频是基于腾讯 AI视频生成模型推出的AI视频...

FlagevalMM – 智源开源的多模态模型评测框架

FlagEvalMM是北京智源人工智能研究院开源的多模态模型...

Qihoo-T2X – 360 AI 研究院和中山大学开源的高效多模态生成模型

Qihoo-T2X 是360 AI 研究院和中山大学推出的基...