SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

3个月前发布 89 00

SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型，是 SigLIP 的升级版本，提升图像与文本之间的对齐能力。通过改进的训练方法和架构，显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入，与图像进行精准匹配。引入了自监督学习技术，如掩码预测和自...

收录时间：

2025-12-16

打开网站手机查看

SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型，是 SigLIP 的升级版本，提升图像与文本之间的对齐能力。通过改进的训练方法和架构，显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入，与图像进行精准匹配。引入了自监督学习技术，如掩码预测和自蒸馏，进一步优化了模型的特征提取能力。SigLIP 2 提供了两种变体： FixRes （固定分辨率）和 NaFlex （支持多种分辨率和宽高比），能适应不同分辨率的图像输入。

官网：https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/image_text/README_siglip2.md

立即打开官网

数据统计

相关导航

MagicMan – 腾讯联合多所高校推出2D图像生成3D人类模型的AI项目

MagicMan 是清华大学深圳国际研究生院、腾讯AI实验室...

Leffa – Meta 开源的图像生成框架，精确控制人物的外观和姿势

Leffa（Learning Flow Fields in ...

MaskSearch – 阿里通义推出的检索增强预训练框架

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练...

ToddlerBot – 斯坦福大学开源的机器学习与人形机器人平台

ToddlerBot是斯坦福大学开源的用在运动操作的开源机器...

MM-Eureka – 上海AI Lab联合上交大等推出的多模态推理模型

MM-Eureka 是上海人工智能实验室、上海创智学院、上海...

DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

DeepGEMM是DeepSeek开源的为高效简洁的FP8矩...

ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架

ASAP（Aligning Simulation and R...

Time-R1 – 基于3B参数模型的时间推理语言模型

Time-R1是伊利诺伊大学香槟分校研究团队开发的基于3B参...