ViLAMP – 蚂蚁联合人民大学推出的视觉语言模型

4个月前发布 120 00

ViLAMP（VIdeo-LAnguage Model with Mixed Precision）是蚂蚁集团和中国人民大学联合推出的视觉语言模型，专门用在高效处理长视频内容。基于混合精度策略，对视频中的关键帧保持高精度分析，显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色，在长视频理解任务中，展现出显著优势。Vi...

收录时间：

2025-12-16

打开网站手机查看

ViLAMP – 蚂蚁联合人民大学推出的视觉语言模型

ViLAMP – 蚂蚁联合人民大学推出的视觉语言模型

ViLAMP（VIdeo-LAnguage Model with Mixed Precision）是蚂蚁集团和中国人民大学联合推出的视觉语言模型，专门用在高效处理长视频内容。基于混合精度策略，对视频中的关键帧保持高精度分析，显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色，在长视频理解任务中，展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧（约3小时）的视频，同时保持稳定的理解准确率，为长视频分析提供新的解决方案。

官网：https://github.com/steven-ccq/ViLAMP

立即打开官网

数据统计

相关导航

AtomoVideo – 阿里推出的高保真图像到视频生成框架

AtomoVideo是由阿里巴巴的研究团队提出的一个高保真图...

X-Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-Dyna 是基于扩散模型的动画生成框架，基于驱动视频中的...

Hummingbird-0 – Tavus 推出的AI口型同步模型

Hummingbird-0 是 Tavus 推出的 AI口型...

脸猫 – AI照片编辑应用，支持一键换装、AI换脸等多功能快速变装

脸猫是集成换装、AI换脸和风格写真的创新应用，让用户轻松拍出...

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型

VITRON是Skywork AI、新加坡国立大学和南洋理工...

cogvlm2-llama3-caption – 智普AI开源的视频标注模型，生成文本描述

cogvlm2-llama3-caption模型是一个基于C...

Seaweed APT – 字节跳动推出的单步图像和视频生成项目

Seaweed APT是字节跳动推出的对抗性后训练（Adve...

AnimateDiff – 扩展文生图模型生成动画的框架

AnimateDiff是由上海人工智能实验室、香港中文大学和...