QLIP – 英伟达推出的视觉标记化方法

1个月前发布 28 00

QLIP(Quantized Language-Image Pretraining)是英伟达等推出的视觉标记化方法,结合高质量的图像重建和零样本图像理解能力。QLIP二进制球形量化(BSQ)的自编码器进行训练,同时优化重建目标和语言-图像对齐目标。QLIP能作为视觉编码器或图像标记器,无缝集成到多模态模型中,在理解与生成任务中表现出色。Q...

收录时间:
2025-12-16
QLIP – 英伟达推出的视觉标记化方法QLIP – 英伟达推出的视觉标记化方法

QLIP(Quantized Language-Image Pretraining)是英伟达等推出的视觉标记化方法,结合高质量的图像重建和零样本图像理解能力。QLIP二进制球形量化(BSQ)的自编码器进行训练,同时优化重建目标和语言-图像对齐目标。QLIP能作为视觉编码器或图像标记器,无缝集成到多模态模型中,在理解与生成任务中表现出色。QLIP为统一多模态模型的开发提供新的思路。

官网:https://github.com/NVlabs/QLIP/


立即打开官网

数据统计

相关导航