SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

1个月前发布 32 00

SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入,与图像进行精准匹配。引入了自监督学习技术,如掩码预测和自...

收录时间:
2025-12-16
SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入,与图像进行精准匹配。引入了自监督学习技术,如掩码预测和自蒸馏,进一步优化了模型的特征提取能力。SigLIP 2 提供了两种变体: FixRes (固定分辨率)和 NaFlex (支持多种分辨率和宽高比),能适应不同分辨率的图像输入。

官网:https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/image_text/README_siglip2.md


立即打开官网

数据统计

相关导航