DistilQwen2 – 阿里推出基于Qwen2优化的轻量级语言模型
DistilQwen2是基于Qwen2大模型用知识蒸馏技术优...
MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度估计。MARS框架灵活,支持全矩阵或对角Hessian近似,衍生出基于AdamW、Lion和Shampoo的三种优化算法实例。实验结果表明,MARS在训练GPT-2模型时,相较传统的AdamW优化器,展现出卓越的性能。