Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

4个月前发布 160 00

Vision Search Assistant（VSA）是结合视觉语言模型（VLMs）和网络代理的框架，提升模型对未知视觉内容的理解能力。基于互联网检索，使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色，显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模...

收录时间：

2025-12-16

打开网站手机查看

Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

Vision Search Assistant（VSA）是结合视觉语言模型（VLMs）和网络代理的框架，提升模型对未知视觉内容的理解能力。基于互联网检索，使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色，显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模型。Vision Search Assistant能广泛应用于现有VLMs，增强处理新图像和事件的能力。

官网：https://github.com/cnzzx/VSA

立即打开官网

数据统计

相关导航

DynaSaur – Adobe 推出的大语言模型代理框架

DynaSaur是Adobe Research推出的大型语言...

Void – 开源的AI辅助编程工具，代码自动补全和智能建议

Void 是基于 Visual Studio Code 构建...

TurboSeek – AI驱动的开源的智能搜索引擎

TurboSeek是一个开源的AI搜索引擎，由Togethe...

Archon – 开源 AI 智能体框架，自主生成代码构建 AI 智能体

Archon 是专注于构建和优化 AI 智能体的开源项目。通...

AingDesk – 开源AI客户端工具，一键部署上百款 AI 模型到个人电脑

AingDesk 是开源的客户端软件，帮助用户快速将上百款 ...

StarVector – 开源多模态视觉语言模型，支持图像和文本到 SVG 生成

StarVector 是开源的多模态视觉语言模型，Servi...

Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式

Verifier Engineering（验证器工程）是中国...

Z.ai

Z.ai 是智谱面向全球推出的AI模型体验平台，集成多种先进...