LLaVA-o1 – 北大清华联合多所机构推出开源的视觉语言模型

4个月前发布 106 00

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队推出的开源视觉语言模型，基于Llama-3.2-Vision模型构建，能进行自主的多阶段“慢思考”推理。模型基于结构化推理，将问题解决过程明确划分为总结、视觉解释、逻辑推理和结论生成四个阶段，显著提升系统推理能力...

收录时间：

2025-12-16

打开网站手机查看

LLaVA-o1 – 北大清华联合多所机构推出开源的视觉语言模型

LLaVA-o1 – 北大清华联合多所机构推出开源的视觉语言模型

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队推出的开源视觉语言模型，基于Llama-3.2-Vision模型构建，能进行自主的多阶段“慢思考”推理。模型基于结构化推理，将问题解决过程明确划分为总结、视觉解释、逻辑推理和结论生成四个阶段，显著提升系统推理能力。在多模态推理基准测试中，LLaVA-o1超越基础模型和其他开闭源模型，展现卓越的性能。

官网：https://github.com/PKU-YuanGroup/LLaVA-o1

立即打开官网

数据统计

相关导航

Entie – AI情侣关系助手，追踪情侣情绪变化提供个性化建议

Entie 是专为情侣设计的关系助手应用。基于AI技术和科学...

Fluid – 谷歌联合MIT推出文本到图像的自回归生成模型

Fluid是由Google DeepMind和MIT共同推出...

Insert Anything – 浙大联合哈佛大学和南洋理工推出的图像插入框架

Insert Anything是浙江大学、哈佛大学和南洋理工...

Chonkie – RAG文本分块库，基于Token、单词、句子和语义的多种分块方法

Chonkie是轻量级、快速且功能丰富的RAG（Retrie...

unsloth – 开源的大语言模型微调工具

unsloth 是开源的大语言模型（LLM）微调工具，基于优...

TokenSwift – 超长文本生成加速框架，90分钟内生成10万Token文本

TokenSwift 是北京通用人工智能研究院团队推出的超长...

SimpleQA – OpenAI开源的新基准，用于评估前沿模型的事实准确性

SimpleQA是OpenAI推出的基准测试，用在评估大型语...

DCEdit – 北交大联合美图推出的双层控制图像编辑方法

DCEdit 是新型的双层控制图像编辑方法，是北京交通大学和...