LLaVA-OneVision – 字节跳动推出的开源多模态AI模型

4个月前发布 102 00

LLaVA-OneVision是字节跳动推出开源的多模态AI模型，LLaVA-OneVision通过整合数据、模型和视觉表示的见解，能同时处理单图像、多图像和视频场景下的计算机视觉任务。LLaVA-OneVision支持跨模态/场景的迁移学习，特别在图像到视频的任务转移中表现出色，具有强大的视频理解和跨场景能力。官网：https://ll...

收录时间：

2025-12-16

打开网站手机查看

LLaVA-OneVision – 字节跳动推出的开源多模态AI模型

LLaVA-OneVision – 字节跳动推出的开源多模态AI模型

LLaVA-OneVision是字节跳动推出开源的多模态AI模型，LLaVA-OneVision通过整合数据、模型和视觉表示的见解，能同时处理单图像、多图像和视频场景下的计算机视觉任务。LLaVA-OneVision支持跨模态/场景的迁移学习，特别在图像到视频的任务转移中表现出色，具有强大的视频理解和跨场景能力。

官网：https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

立即打开官网

数据统计

相关导航

BiliNote – 开源 AI 视频笔记工具，自动提取视频内容生成Markdown格式

BiliNote 是开源的 AI 视频笔记助手，支持基于哔哩...

See3D – 智源研究院开源的无标注视频学习3D生成模型

See3D（See Video, Get 3D）是北京智源人...

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源...

Follow Your Pose – 开源的姿态全可控视频生成框架

Follow Your Pose是由清华大学、香港科技大学...

mPLUG-Owl3 – 阿里巴巴推出的通用多模态AI模型

mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型，专为...

LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架

LanDiff是用于高质量的文本到视频（T2V）生成的创...

HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集

HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频...

X-Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-Dyna 是基于扩散模型的动画生成框架，基于驱动视频中的...