NVLM – 英伟达推出的多模态大型语言模型

1个月前发布 27 00

NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹敌的性能。NVLM 1.0家族包括三种架构:仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。三种架构在多模态训练后...

收录时间:
2025-12-16
NVLM – 英伟达推出的多模态大型语言模型NVLM – 英伟达推出的多模态大型语言模型

NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹敌的性能。NVLM 1.0家族包括三种架构:仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。三种架构在多模态训练后,保持了文本性能,在某些情况下超过了它们的LLM主干。NVLM基于精心策划的多模态预训练和监督微调数据集,展现了卓越的性能,尤其在数学和编码任务上。

官网:https://huggingface.co/collections/nvidia/nvlm-10-66e9f407c764a0ee6e37b7f4


立即打开官网

数据统计

相关导航