LongRAG – 智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是清华大学、中国科学院和智谱的研究团队推出的...
HMoE(混合异构专家模型)是腾讯混元团队提出的新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数据,从而增强模型的专业化程度。HMoE采用新的训练目标和策略,如P-Penalty Loss,鼓励频繁激活更小的专家,以提高参数利用率和计算效率。实验证明,HMoE在多个预训练评估基准上性能卓越,为大模型研究提供了新方向。