Video-LLaVA2 – ChatLaw推出的开源多模态智能理解系统

4个月前发布 110 00

Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统，通过创新的时空卷积（STC）连接器和音频分支，提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色，与一些专有模型相媲美，同时在音频和音视频问答任务中也展示了优越的多模态理解能力。官网：https://github.com/DAMO...

收录时间：

2025-12-16

打开网站手机查看

Video-LLaVA2 – ChatLaw推出的开源多模态智能理解系统

Video-LLaVA2 – ChatLaw推出的开源多模态智能理解系统

Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统，通过创新的时空卷积（STC）连接器和音频分支，提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色，与一些专有模型相媲美，同时在音频和音视频问答任务中也展示了优越的多模态理解能力。

官网：https://github.com/DAMO-NLP-SG/VideoLLaMA2?tab=readme-ov-file

立即打开官网

数据统计

相关导航

VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多...

Fashion-VDM – 谷歌和华盛顿大学联合推出的虚拟试穿技术

Fashion-VDM是谷歌和华盛顿大学共同推出的基于视频扩...

DimensionX – 港科大、清华和生数科技共同推出的单图像生成复杂3D、4D场景框架

DimensionX是香港科技大学、清华大学和生数科技共同推...

TesserAct – AI 4D具身世界模型，能预测3D场景的动态演变

TesserAct 是创新的 4D 具身世界模型，能预测 3...

ComfyUI-MochiEdit – 开源的AI视频编辑工具，支持视频转视频和局部编辑

ComfyUI-MochiEdit是基于ComfyUI和Ge...

FancyVideo – 360推出的AI文生视频模型

FancyVideo是360联合中山大学推出的AI文生视频模...

Bing Video Creator – 微软推出AI视频生成工具

Bing Video Creator 是微软推出 AI视频生...

KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架

KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分...