CogVLM2 – 智谱AI推出的新一代多模态大模型

4个月前发布 97 00

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块，通过深度融合策略，优化了视觉与语言模态的交互，确保了在增强视觉理解的同时，语言处理能力也得到保持...

收录时间：

2025-12-16

打开网站手机查看

CogVLM2 – 智谱AI推出的新一代多模态大模型

CogVLM2 – 智谱AI推出的新一代多模态大模型

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块，通过深度融合策略，优化了视觉与语言模态的交互，确保了在增强视觉理解的同时，语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语，模型大小为19亿参数，但实际推理时激活的参数量约为120亿，展现了在多模态任务中的高效性能。

官网：https://huggingface.co/THUDM/cogvlm2-llama3-chat-19B

立即打开官网

数据统计

相关导航

R1-Onevision – 开源多模态视觉推理模型，基于 Qwen2.5-VL 微调

R1-Onevision 是开源的多模态大语言模型，专注于复...

Edicho – 蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法

Edicho 是香港科技大学、蚂蚁集团、斯坦福大学和香港中文...

Red_Panda – Recraft推出的AI图像生成模型

Red_Panda 是 Recraft V3 在发布初期使用...

Zyler AI – AI营销分析平台，提供智能建议、趋势分析和洞察

Zyler AI是专注于营销分析的人工智能平台，帮助企业和专...

InftyThink – 浙大联合北大推出的无限深度推理范式

InftyThink是创新的大模型推理范式，突破传统模型在长...

LightLab – 谷歌等机构推出的图像光源控制模型

LightLab是谷歌等机构推出的基于扩散模型的图像光源控制...

StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型

StoryWeaver是厦门大学多媒体可信感知与高效计算教育...

码上飞

码上飞（CodeFlying）是跨赴科技推出的零代码 AI应...