OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据

1个月前发布 26 00

OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代...

收录时间:
2025-12-16
OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据

OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代理的性能,无需依赖额外信息如HTML或视图层次结构。OmniParser 能与各种最先进的 LLM 一起使用:OpenAI ( 4o / o1 / o3-mini )、 DeepSeek R1 、 Qwen 2.5-VL 和 Anthropic (Sonnet)。

官网:https://github.com/microsoft/OmniParser/


立即打开官网

数据统计

相关导航