VideoRAG – 用于长视频理解的检索增强生成技术

4个月前发布 139 00

VideoRAG是用于长视频理解的检索增强生成（Retrieval-Augmented Generation）技术。通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型（LVLMs）更好地理解和处理长视频内容。具体来说，VideoRAG 用开源工具从视频数据中提取音频、文字和对象检测等信息，将这些信息作为辅助文本与视频帧和用户查询一起输...

收录时间：

2025-12-16

打开网站手机查看

VideoRAG – 用于长视频理解的检索增强生成技术

VideoRAG – 用于长视频理解的检索增强生成技术

VideoRAG是用于长视频理解的检索增强生成（Retrieval-Augmented Generation）技术。通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型（LVLMs）更好地理解和处理长视频内容。具体来说，VideoRAG 用开源工具从视频数据中提取音频、文字和对象检测等信息，将这些信息作为辅助文本与视频帧和用户查询一起输入到现有的LVLM中。这种方法计算开销低，易于实现，能与任何LVLM兼容。在多个长视频理解基准测试中，VideoRAG 展现出了显著的性能提升。

官网：https://github.com/Leon1207/Video-RAG-master

立即打开官网

数据统计

相关导航

Skywork – 昆仑万维面向全球推出的天工超级智能体

Skywork 是昆仑万维推出的天工超级智能体（Skywor...

SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型

SynCamMaster是浙江大学、快手科技、清华大学和香港...

Reka Flash 3 – Reka AI 推出的开源推理模型

Reka Flash 3 是 Reka AI 推出的开源推理...

CapsWriter-Offline – AI语音转文字工具，PC端离线实时工作

CapsWriter-Offline是一款高效的PC端离线语...

Ai好记

Ai好记是功能强大的AI多模态知识库，能轻松解决你的信息处理...

Playmate – 趣丸科技团队推出的人脸动画生成框架

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框...

Vidu主体参照功能 – Vidu推出的AI视频生成新功能，一键同步角色特征

Vidu 主体参照功能是Vidu AI全球首发的参考一致性新...

AnimateDiff-Lightning – 字节推出的快速生成高质量视频的模型

AnimateDiff-Lightning是由字节跳动的研究...