MT-MegatronLM – 摩尔线程开源的混合并行训练框架

4个月前发布 135 00

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架，主要用于高效训练大规模语言模型。支持 dense 模型、多模态模型及 MoE（混合专家）模型的训练。框架基于全功能 GPU 支持 FP8 混合精度策略、高性能算子库和集合通信库，显著提升了 GPU 集群的算力利用率。通过模型并行、数据并行和流水线并行等...

收录时间：

2025-12-16

打开网站手机查看

MT-MegatronLM – 摩尔线程开源的混合并行训练框架

MT-MegatronLM – 摩尔线程开源的混合并行训练框架

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架，主要用于高效训练大规模语言模型。支持 dense 模型、多模态模型及 MoE（混合专家）模型的训练。框架基于全功能 GPU 支持 FP8 混合精度策略、高性能算子库和集合通信库，显著提升了 GPU 集群的算力利用率。通过模型并行、数据并行和流水线并行等技术，实现了高效的分布式训练，支持混合精度训练以减少内存占用和加速计算。

官网：https://github.com/MooreThreads/MT-MegatronLM

立即打开官网

数据统计

相关导航

StreamMultiDiffusion – 实时生成和编辑图像的交互式框架

StreamMultiDiffusion是一个开源的实时交互...

阶跃星辰推出移动端AI智能问答助手跃问APP

AI工具集 6月14日消息，由微软前全球副总裁姜大昕所创办的...

Diffusion Self-Distillation – 斯坦福大学推出的零样本定制图像生成技术

Diffusion Self-Distillation（扩散...

Diff-Instruct – 从预训练扩散模型中迁移知识的通用框架

Diff-Instruct是先进的知识转移方法，用于从预训练...

Mona Land – AI角色扮演互动平台，与超真实AI角色进行深入对话

Mona Land 是李开复旗下零一万物推出的AI角色扮演互...

PsycoLLM – 合肥工业大学推出的中文心理大语言模型

PsycoLLM是合肥工业大学计算机科学与信息工程学院推出的...

OneDiffusion – 无缝支持双向图像合成和理解的开源扩散模型

OneDiffusion是AI2推出的多功能大规模扩散模型...

吐司AI LOGO – 吐司TusiArt推出的插图 LOGO 生成工具

吐司AI LOGO是吐司TusiArt 推出的 AI 插图...