Mini-LLaVA – 基于Llama 3.1的轻量级多模态大语言模型

4个月前发布 108 00

Mini-LLaVA是一款轻量级的多模态大语言模型，由清华大学和北京航空航天大学的研究团队联合开发。能处理图像、文本和视频输入，实现高效的多模态数据处理。Mini-LLaVA基于Llama 3.1模型，优化了代码结构，在单个GPU上即可运行，适合复杂的视觉-文本关联任务。项目已在GitHub上开源，便于研究者和开发者下载使用。Mini-L...

收录时间：

2025-12-16

打开网站手机查看

Mini-LLaVA – 基于Llama 3.1的轻量级多模态大语言模型

Mini-LLaVA – 基于Llama 3.1的轻量级多模态大语言模型

Mini-LLaVA是一款轻量级的多模态大语言模型，由清华大学和北京航空航天大学的研究团队联合开发。能处理图像、文本和视频输入，实现高效的多模态数据处理。Mini-LLaVA基于Llama 3.1模型，优化了代码结构，在单个GPU上即可运行，适合复杂的视觉-文本关联任务。项目已在GitHub上开源，便于研究者和开发者下载使用。Mini-LLaVA的设计注重代码的可读性和功能的扩展性，支持定制和微调，适应不同的应用场景。

官网：https://github.com/fangyuan-ksgk/Mini-LLaVA

立即打开官网

数据统计

相关导航

ContentV – 字节跳动开源的文生视频模型框架

ContentV是字节跳动开源的80亿参数文生视频模型框...

Video-T1 – 清华联合腾讯推出的视频生成技术

Video-T1 是清华大学和腾讯的研究人员共同推出的视频...

Loopy – 字节跳动推出的音频驱动的AI视频生成模型

Loopy是字节跳动推出的音频驱动的 AI视频生成模型，用...

LOKI – 中山大学联合上海AI Lab推出的合成数据检测基准

LOKI是由中山大学和上海AI Lab联合提出的合成数据检测...

MAGI-1 – Sand AI 开源的首个自回归视频生成模型

MAGI-1 是 Sand AI 开源的全球首个自回归视频...

PoseTalk – 文本和音频驱动的生成会说话的头部动画开源项目

PoseTalk 是基于文本和音频的姿势控制和运动细化方法的...

MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法

MotionCanvas是香港中文大学、Adobe 研究院和...

XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架

XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用...