Moonlight-16B-A3B – 月之暗面开源的 MoE 模型

1个月前发布 35 00

Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练,计算效率是传统 AdamW 的两倍。在性能方面,Moonlight 在多个基准测试中表现优异,在英语语言理解(MMLU...

收录时间:
2025-12-16
Moonlight-16B-A3B – 月之暗面开源的 MoE 模型Moonlight-16B-A3B – 月之暗面开源的 MoE 模型

Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练,计算效率是传统 AdamW 的两倍。在性能方面,Moonlight 在多个基准测试中表现优异,在英语语言理解(MMLU)和代码生成(HumanEval)等任务中均超越了其他同类模型。模型的训练数据量达到 5.7 万亿 token,展现了更高的样本效率。

官网:https://github.com/MoonshotAI/Moonlight


立即打开官网

数据统计

相关导航