AIMv2 – 苹果开源的多模态自回归预训练视觉模型

3个月前发布 67 00

AIMv2是苹果公司开源的多模态自回归预训练视觉模型，通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架，将图像划分为非重叠的图像块，将文本分解为子词令牌，然后将两者拼接为统一序列进行自回归预训练。简化了训练过程，增强了模型对多模态数据的理解能力。AIMV2提供了多种参数规模的版本（如300M、600M、1.2B和2.7B...

收录时间：

2025-12-16

打开网站手机查看

AIMv2 – 苹果开源的多模态自回归预训练视觉模型

AIMv2 – 苹果开源的多模态自回归预训练视觉模型

AIMv2是苹果公司开源的多模态自回归预训练视觉模型，通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架，将图像划分为非重叠的图像块，将文本分解为子词令牌，然后将两者拼接为统一序列进行自回归预训练。简化了训练过程，增强了模型对多模态数据的理解能力。AIMV2提供了多种参数规模的版本（如300M、600M、1.2B和2.7B），适用于从手机到PC等不同设备。在性能方面，AIMV2在多模态任务和传统视觉任务中均表现出色。

官网：https://github.com/apple/ml-aim

立即打开官网

数据统计

相关导航

GarDiff – AI虚拟试穿技术，生成高保真试穿图像保留服装细节

GarDiff是一种创新的虚拟试穿技术，通过使用CLIP和V...

SuperEdit – 字节跳动等机构推出的图像编辑方法

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计...

DeepSeek-Coder-V2 – DeepSeek开源的代码语言模型，与GPT4-Turbo相媲美

DeepSeek-Coder-V2 是由DeepSeek推出...

联通元景 – 中国联通AI开源的中文原生文生图模型

联通元景（UniT2IXL）是中国联通AI推出的中文原生文生...

HelloBench – 评估LLMs长文本生成能力的开源基准测试工具

HelloBench是一个用于评估大型语言模型（LLMs）长...

DeepSeek-R1-0528 – DeepSeek开源的最新版R1模型

DeepSeek-R1-0528 是 DeepSeek 团队...

Stable Diffusion 3 – Stability AI推出的新一代图像生成模型

Stable Diffusion 3 是由 Stabilit...

InstantCharacter – 腾讯混元开源的定制化图像生成插件

InstantCharacter 是腾讯混元开源的定制化图像...