LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型

1个月前发布 26 00

LongLLaVA是的多模态大型语言模型(MLLM),是香港中文大学(深圳)的研究人员推出。基于混合架构,结合Mamba和Transformer模块,提高处理大量图像数据的效率。LongLLaVA能在单个A100 80GB GPU上处理多达1000张图像,同时保持高性能和低内存消耗。模型基于2D池化技术压缩图像token,显著降低计算成本...

收录时间:
2025-12-16
LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型

LongLLaVA是的多模态大型语言模型(MLLM),是香港中文大学(深圳)的研究人员推出。基于混合架构,结合Mamba和Transformer模块,提高处理大量图像数据的效率。LongLLaVA能在单个A100 80GB GPU上处理多达1000张图像,同时保持高性能和低内存消耗。模型基于2D池化技术压缩图像token,显著降低计算成本,保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能,特别是在检索、计数和排序任务中。

官网:https://github.com/FreedomIntelligence/LongLLaVA


立即打开官网

数据统计

相关导航