LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
LiveCC 是新加坡国立大学Show Lab 团队联合字节...
Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色,与一些专有模型相媲美,同时在音频和音视频问答任务中也展示了优越的多模态理解能力。
官网:https://github.com/DAMO-NLP-SG/VideoLLaMA2?tab=readme-ov-file