LongVU – Meta AI开源的长视频理解模型

4个月前发布 135 00

LongVU是Meta AI团队推出的长视频理解模型，基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型（LLM）上下文大小的挑战。LongVU基于跨模态查询和帧间依赖性，LongVU能在减少视频标记数量的同时，保留长视频的视觉细节。LongVU用DINOv2特征去除相似度高的冗余帧，用文本引导的跨模态查询进行选择性帧特征减少，在...

收录时间：

2025-12-16

打开网站手机查看

LongVU – Meta AI开源的长视频理解模型

LongVU – Meta AI开源的长视频理解模型

LongVU是Meta AI团队推出的长视频理解模型，基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型（LLM）上下文大小的挑战。LongVU基于跨模态查询和帧间依赖性，LongVU能在减少视频标记数量的同时，保留长视频的视觉细节。LongVU用DINOv2特征去除相似度高的冗余帧，用文本引导的跨模态查询进行选择性帧特征减少，在必要时基于时间依赖性进行空间标记压缩。LongVU能有效处理大量帧，在给定的上下文长度内损失很少的视觉信息。

官网：https://github.com/Vision-CAIR/LongVU

立即打开官网

数据统计

相关导航

FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架

FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身...

InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型

InternVideo2.5是上海人工智能实验室联合南京大学...

JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

JoyGen是京东科技和香港大学推出的，音频驱动的3D说话人...

BoldVoice – AI英语口音训练应用，AI实时评分提升发音水平

BoldVoice 是专注于英语口音训练的应用程序，帮助非英...

GR00T N1 – 英伟达开源的人形机器人基础模型

GR00T N1 是英伟达推出的全球首个开源基础模型，专为通...

LLIA – 美团推出的音频驱动肖像视频生成框架

LLIA（Low-Latency Interactive A...

Wav2Lip – 开源的唇形同步工具

Wav2Lip是开源的唇形同步工具，支持用户将音频文件转换成...

MagicTryOn – 浙大联合vivo等机构推出的视频虚拟试穿框架

MagicTryOn是浙江大学计算机科学与技术学院、vivo...