Vary-toy：开源的小型视觉多模态模型

4个月前发布 119 00

Vary-toy是一个小型的视觉语言模型（LVLM），由来自旷视、国科大、华中大的研究人员共同提出，旨在解决大型视觉语言模型（LVLMs）在训练和部署上的挑战。对于资源有限的研究者来说，大型模型通常拥有数十亿参数，难以在消费级GPU上（如GTX 1080Ti）进行训练和部署。Vary-toy的核心目标便是让研究人员能够在有限的硬件资源下...

收录时间：

2025-12-16

打开网站手机查看

Vary-toy：开源的小型视觉多模态模型

Vary-toy：开源的小型视觉多模态模型

Vary-toy是一个小型的视觉语言模型（LVLM），由来自旷视、国科大、华中大的研究人员共同提出，旨在解决大型视觉语言模型（LVLMs）在训练和部署上的挑战。对于资源有限的研究者来说，大型模型通常拥有数十亿参数，难以在消费级GPU上（如GTX 1080Ti）进行训练和部署。Vary-toy的核心目标便是让研究人员能够在有限的硬件资源下，体验到当前LVLMs的所有功能（文档OCR、视觉定位、图像描述、视觉文答等）。

官网：https://varytoy.github.io/

立即打开官网

数据统计

相关导航

Qwen2.5 – 阿里通义千问团队最新开源的最强AI大模型

Qwen2.5 是阿里通义千问团队最新开源的最强AI大模型...

MagicArticulate – 南洋理工和字节推出的静态 3D 模型转骨架生成框架

MagicArticulate 是南洋理工大学和字节跳动Se...

PSHuman – 开源的单图像3D人像重建技术，仅需一张照片

PSHuman是先进的单图像3D人像重建技术。基于跨尺度多视...

SynthID Text – 谷歌DeepMind推出的AI生成文本水印技术

SynthID Text 是谷歌DeepMind 推出的文本...

SoulChat2.0 – 华南理工大学推出的心理咨询师数字孪生大语言模型

SoulChat2.0是华南理工大学未来技术学院-广东省数字...

Entie – AI情侣关系助手，追踪情侣情绪变化提供个性化建议

Entie 是专为情侣设计的关系助手应用。基于AI技术和科学...

Continue – AI代码助手，聊天式理解代码提供自动补全代码建议

Continue是开源的 AI 代码助手，集成在 VS C...

OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集

OmniAlign-V 是上海交通大学、上海AI Lab、南...