X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用额外的模态信息(如热成像、深度或事件相机数据)作为视觉提示,将基础模型适应到下游的多模态任务中。官网:https://arxiv.org/pdf/2409.1934...
X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用额外的模态信息(如热成像、深度或事件相机数据)作为视觉提示,将基础模型适应到下游的多模态任务中。
官网:https://arxiv.org/pdf/2409.19342
立即打开官网