DistilQwen2 – 阿里推出基于Qwen2优化的轻量级语言模型
DistilQwen2是基于Qwen2大模型用知识蒸馏技术优...
DeepSeek-R1T-Chimera 是TNG科技公司推出的开源语言模型。结合 DeepSeek V3-0324 和 DeepSeek R1 两种模型的优势,基于创新的构建方法,将两者的神经网络组件融合,非简单的微调或蒸馏。模型在基准测试中展现出与 R1 相当的推理能力,运行速度更快,输出标记数量减少 40%,效率显著提升。DeepSeek-R1T-Chimera推理过程更加紧凑有序,避免 R1 模型可能出现的冗长和散漫问题。DeepSeek-R1T-Chimera 的模型权重已公开在 Hugging Face 上,支持在 openrouter 上免费使用。