Satori – 开源的大语言推理模型,具备自回归搜索和自我纠错能力
Satori是 MIT、哈佛大学等机构研究者推出的 7B 参...
SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入,与图像进行精准匹配。引入了自监督学习技术,如掩码预测和自蒸馏,进一步优化了模型的特征提取能力。SigLIP 2 提供了两种变体: FixRes (固定分辨率)和 NaFlex (支持多种分辨率和宽高比),能适应不同分辨率的图像输入。