ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表

1个月前发布 42 00

ScreenAI是一个由谷歌的研究人员推出的可读屏AI视觉语言模型,专门设计用于理解和处理用户界面(UI)和信息图表。该模型基于PaLI架构结合了视觉和语言处理的能力,并借鉴了Pix2Struct的灵活拼贴策略,使其能够理解和生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。官网:https://arxiv.org/abs...

收录时间:
2025-12-16
ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表

ScreenAI是一个由谷歌的研究人员推出的可读屏AI视觉语言模型,专门设计用于理解和处理用户界面(UI)和信息图表。该模型基于PaLI架构结合了视觉和语言处理的能力,并借鉴了Pix2Struct的灵活拼贴策略,使其能够理解和生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。

官网:https://arxiv.org/abs/2402.04615


立即打开官网

数据统计

相关导航