Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

1个月前发布 41 00

Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色,显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模...

收录时间:
2025-12-16
Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色,显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模型。Vision Search Assistant能广泛应用于现有VLMs,增强处理新图像和事件的能力。

官网:https://github.com/cnzzx/VSA


立即打开官网

数据统计

相关导航