ScreenAgent – 基于视觉语言模型的计算机控制智能体

4个月前发布 113 00

ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体，该智能体是基于视觉语言模型（VLM）构建的，能够与真实计算机屏幕进行交互。研究人员构建了一个包含“计划-执行-反思”的运行流程，以引导智能体与计算机屏幕进行持续性的交互。ScreenAgent的核心功能是通过观察屏幕截图，并输出相应的鼠标和键盘动作来操纵图...

收录时间：

2025-12-16

打开网站手机查看

ScreenAgent – 基于视觉语言模型的计算机控制智能体

ScreenAgent – 基于视觉语言模型的计算机控制智能体

ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体，该智能体是基于视觉语言模型（VLM）构建的，能够与真实计算机屏幕进行交互。研究人员构建了一个包含“计划-执行-反思”的运行流程，以引导智能体与计算机屏幕进行持续性的交互。ScreenAgent的核心功能是通过观察屏幕截图，并输出相应的鼠标和键盘动作来操纵图形用户界面（GUI），从而执行多步骤的复杂任务。

官网：https://github.com/niuzaisheng/ScreenAgent

立即打开官网

数据统计

相关导航

DGM – 自改进AI Agent系统，会迭代修改自身代码提升性能

DGM（Darwin Gödel Machine）是自改进人...

Codex CLI – OpenAI 开源的AI编程智能体

Codex CLI 是 OpenAI 推出的轻量级 AI编程...

smolagents – Hugging Face 开源的轻量级 Agent 构建库

smolagents 是 Hugging Face 推出的轻...

PPTAgent – 中科院推出的自动生成高质量演示文稿框架

PPTAgent是中国科学院软件研究所中文信息处理实验室推出...

FastGPT

FastGPT 是新一代企业级 AI Agent 构建平台...

AgentReview – 基于LLM Agents 模拟同行评审过程的框架

AgentReview是基于大型语言模型（LLM）的框架，模...

TinyTroupe – 微软推出的多智能体角色模拟库

TinyTroupe是 microsoft推出的实验性Py...

AgentCPM-GUI – 清华联合面壁智能开源的端侧GUI智能体模型

AgentCPM-GUI 是清华大学和面壁智能团队联合推出的...