VideoLLaMB – 开源的多模态长视频理解框架

3个月前发布 81 00

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视频内容,保持语义连续性,并在多种任务中表现出色,如视频问答、自我中心规划和流式字幕生成。能有效地处理视频长度的增加,同时保持高性能和成本效益,适用于学术研究和实际应用。官网:http...

收录时间:
2025-12-16
VideoLLaMB – 开源的多模态长视频理解框架VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视频内容,保持语义连续性,并在多种任务中表现出色,如视频问答、自我中心规划和流式字幕生成。能有效地处理视频长度的增加,同时保持高性能和成本效益,适用于学术研究和实际应用。

官网:https://github.com/bigai-nlco/VideoLLaMB


立即打开官网

数据统计

相关导航