PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型

4个月前发布 171 00

PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型（VLM），作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规模的Gemma 2模型，支持多种分辨率，基于多阶段训练具备广泛的知识迁移能力。PaliGemma 2在多种学术任务上表现出色，尤其在大型...

收录时间：

2025-12-16

打开网站手机查看

PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型

PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型

PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型（VLM），作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规模的Gemma 2模型，支持多种分辨率，基于多阶段训练具备广泛的知识迁移能力。PaliGemma 2在多种学术任务上表现出色，尤其在大型模型和高分辨率配置下性能显著，同时在OCR、音乐乐谱识别和医学图像报告生成等新领域也取得了突破。

官网：https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48

立即打开官网

数据统计

相关导航

Sketch2Sound – Adobe 联合西北大学推出的AI音频生成技术

Sketch2Sound是Adobe 研究院和西北大学推出的...

TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

TANGOFLUX是高效的文本到音频生成模型，是新加坡科技设...

AnythingLLM – 开源的全栈 AI 客户端，支持本地部署和API集成

AnythingLLM 是开源免费且支持多模态交互的全栈 A...

EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

EMAGE（Expressive Masked Audio...

创音岛 – AI音乐创作平台，支持录音转文字、配音、AI写歌

创音岛是集录音转文字、配音和AI写歌于一体的音乐创作平台 ...

Seed-Music – 字节跳动推出的AI音乐生成大模型

Seed-Music是字节跳动推出的 AI音乐生成大模型...

INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架

INFP是音频驱动的头部生成框架，专为双人对话交互设计。能自...

Emotion-LLaMA – 多模态情绪识别与推理模型，融合音频、视觉和文本输入

Emotion-LLaMA是多模态情绪识别与推理模型，融合了...