Bamba-9B – 基于 Mamba2 架构的仅解码语言模型

1个月前发布 30 00

Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B在推理时相较于标准变换器模型展现出2.5倍的吞吐量提升和2倍的延迟加速。模型训练使用2.2万亿个t...

收录时间:
2025-12-16
Bamba-9B – 基于 Mamba2 架构的仅解码语言模型Bamba-9B – 基于 Mamba2 架构的仅解码语言模型

Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B在推理时相较于标准变换器模型展现出2.5倍的吞吐量提升和2倍的延迟加速。模型训练使用2.2万亿个token,进一步验证新兴架构的潜力,在保持与最先进的变换器模型竞争的同时,提供更高的推理效率。

官网:https://github.com/foundation-model-stack/bamba


立即打开官网

数据统计

相关导航