NVLM – 英伟达推出的多模态大型语言模型

4个月前发布 103 00

NVLM是NVIDIA推出的前沿多模态大型语言模型（LLMs），在视觉-语言任务上达到与顶尖专有模型（如GPT-4o）和开放访问模型（如Llama 3-V 405B和InternVL 2）相匹敌的性能。NVLM 1.0家族包括三种架构：仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。三种架构在多模态训练后...

收录时间：

2025-12-16

打开网站手机查看

NVLM – 英伟达推出的多模态大型语言模型

NVLM – 英伟达推出的多模态大型语言模型

NVLM是NVIDIA推出的前沿多模态大型语言模型（LLMs），在视觉-语言任务上达到与顶尖专有模型（如GPT-4o）和开放访问模型（如Llama 3-V 405B和InternVL 2）相匹敌的性能。NVLM 1.0家族包括三种架构：仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。三种架构在多模态训练后，保持了文本性能，在某些情况下超过了它们的LLM主干。NVLM基于精心策划的多模态预训练和监督微调数据集，展现了卓越的性能，尤其在数学和编码任务上。

官网：https://huggingface.co/collections/nvidia/nvlm-10-66e9f407c764a0ee6e37b7f4

立即打开官网

数据统计

相关导航

TryOffAnyone – 将模特穿着服装的图像还原成平铺商品图的 AI 工具

TryOffAnyone是能将穿着服装的人物照片转换成平铺的...

LLaMA-Mesh – 清华联合英伟达推出的自然语言生成复杂的3D模型项目

LLaMA-Mesh是清华大学和NVIDIA共同推出的项目...

SuperEdit – 字节跳动等机构推出的图像编辑方法

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计...

DeepEP – DeepSeek 开源的专家并行通信库，专为 MoE 训练和推理设计

DeepEP 是 DeepSeek 开源的首个专为混合专家模...

TrendPublish – AI内容发布工具，支持智能总结和自动发布

TrendPublish 是基于 AI 的趋势发现和内容发布...

StarRocks MCP Server – StarRocks 推出的MCP服务器工具

StarRocks MCP Server 是 StarRoc...

Entie – AI情侣关系助手，追踪情侣情绪变化提供个性化建议

Entie 是专为情侣设计的关系助手应用。基于AI技术和科学...

OpenSPG – 蚂蚁联合OpenKG开源的知识图谱引擎

OpenSPG是蚂蚁集团联合OpenKG社区推出的基于SPG...