源2.0-M32 – 浪潮信息推出的拥有32个专家的混合专家模型(MoE)
源2.0-M32是浪潮信息推出的拥有32个专家的混合专家模型...
DistilQwen2是基于Qwen2大模型用知识蒸馏技术优化得到的轻量级语言模型,能提高运算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增强指令数据多样性和优化蒸馏算法,将复杂知识传递给小模型,提升指令遵循效果。DistilQwen2 的研究为开发更智能、更高效的自然语言处理应用提供技术支持,赋能更多开发者和企业基于技术创新实现商业价值。
官网:https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct