QLIP – 英伟达推出的视觉标记化方法

4个月前发布 112 00

QLIP（Quantized Language-Image Pretraining）是英伟达等推出的视觉标记化方法，结合高质量的图像重建和零样本图像理解能力。QLIP二进制球形量化（BSQ）的自编码器进行训练，同时优化重建目标和语言-图像对齐目标。QLIP能作为视觉编码器或图像标记器，无缝集成到多模态模型中，在理解与生成任务中表现出色。Q...

收录时间：

2025-12-16

打开网站手机查看

QLIP – 英伟达推出的视觉标记化方法

QLIP – 英伟达推出的视觉标记化方法

QLIP（Quantized Language-Image Pretraining）是英伟达等推出的视觉标记化方法，结合高质量的图像重建和零样本图像理解能力。QLIP二进制球形量化（BSQ）的自编码器进行训练，同时优化重建目标和语言-图像对齐目标。QLIP能作为视觉编码器或图像标记器，无缝集成到多模态模型中，在理解与生成任务中表现出色。QLIP为统一多模态模型的开发提供新的思路。

官网：https://github.com/NVlabs/QLIP/

立即打开官网

数据统计

相关导航

MagicArticulate – 南洋理工和字节推出的静态 3D 模型转骨架生成框架

MagicArticulate 是南洋理工大学和字节跳动Se...

MagicClay – Adobe 推出的3D建模工具，文本引导3D模型局部雕刻

MagicClay 是 Adobe 推出3D建模工具，结合网...

MagicQuill – 蚂蚁集团联合多所高校共同开源的AI互动式图像编辑工具

MagicQuill是香港科技大学、蚂蚁集团、浙江大学和香港...

SigStyle – 吉大联合 Adobe 等机构推出的风格迁移框架

SigStyle 是吉林大学、南京大学智能科学与技术学院及A...

OmniSVG – 复旦大学联合 StepFun 推出端到端多模态矢量图形生成模型

OmniSVG 是复旦大学和 StepFun 联合开发的全球...

麦橘超然 – 麦橘推出的AI文生图模型，基于 Flux.1 架构

麦橘超然（MajicFlus）是麦橘推出的基于Flux.1架...

LLM2LLM – 通过迭代数据增强提升大语言模型的技术

LLM2LLM是创新的迭代数据增强策略，提升大型语言模型（L...

家作 – 淘宝推出的家装家居AI设计工具

家作是淘宝推出的AI设计工具，主要面向家装、家居电商行业商家...