CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

1个月前发布 32 00

CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像,具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩...

收录时间:
2025-12-16
CogAgent – 清华与智谱AI联合推出的多模态视觉大模型CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像,具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩,在GUI操作数据集上显著超越了现有的模型,如 Mind2Web 和 AITW。

官网:https://github.com/THUDM/CogVLM


立即打开官网

数据统计

相关导航