CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

4个月前发布 109 00

CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型，专注于图形用户界面（GUI）的理解和导航。通过视觉模态对GUI界面进行感知，非传统的文本模态，更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像，具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩...

收录时间：

2025-12-16

打开网站手机查看

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型，专注于图形用户界面（GUI）的理解和导航。通过视觉模态对GUI界面进行感知，非传统的文本模态，更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像，具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩，在GUI操作数据集上显著超越了现有的模型，如 Mind2Web 和 AITW。

官网：https://github.com/THUDM/CogVLM

立即打开官网

数据统计

相关导航

Llama Nemotron – 英伟达推出的系列推理模型

Llama Nemotron是NVIDIA推出的一系列推理模...

ACI.dev – 为AI智能体设计的开源MCP基础设施平台

ACI.dev 是开源的基础设施平台，专为 AI 智能体设计...

Agent Development Kit – 谷歌开源的 AI Agent 开发与部署框架

Agent Development Kit（ADK）是谷歌开...

Multi-Agent Orchestrator – 亚马逊开源的多智能体框架

Multi-Agent Orchestrator 是用于管理...

VirSci – 上海人工智能实验室推出的多智能体AI科学研究工具

VirSci（Virtual Scientists）是上海人...

CAMPHOR – 苹果推出的端侧小语言模型多智能体框架

CAMPHOR是苹果团队推出的端侧小语言模型（SLM）多智能...

Proactive Agent – 清华联合面壁智能开源的新一代主动Agent交互范式

Proactive Agent是清华大学联合面壁智能等团队推...

Agent TARS – 字节跳动开源的多模态 AI Agent 项目

Agent TARS 是字节跳动开源的多模态 AI Agen...