HMoE – 腾讯混元团队提出的新型神经网络架构

3个月前发布 83 00

HMoE（混合异构专家模型）是腾讯混元团队提出的新型神经网络架构，旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数据，从而增强模型的专业化程度。HMoE采用新的训练目标和策略，如P-Penalty Loss，鼓励频繁激活更小的专家，以提高参数利用率和计算效率。实验证明，HMoE在多个预训练评估基准上性能...

收录时间：

2025-12-16

打开网站手机查看

HMoE – 腾讯混元团队提出的新型神经网络架构

HMoE – 腾讯混元团队提出的新型神经网络架构

HMoE（混合异构专家模型）是腾讯混元团队提出的新型神经网络架构，旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数据，从而增强模型的专业化程度。HMoE采用新的训练目标和策略，如P-Penalty Loss，鼓励频繁激活更小的专家，以提高参数利用率和计算效率。实验证明，HMoE在多个预训练评估基准上性能卓越，为大模型研究提供了新方向。

官网：https://arxiv.org/pdf/2408.10681

立即打开官网

数据统计

相关导航

MARS – 字节推出优化大模型训练效率的框架

MARS（Make vAriance Reduction S...

GaussianCity – 南洋理工大学 S-Lab 团队推出的 3D 城市生成框架

GaussianCity 是南洋理工大学 S-Lab 团队推...

FineZip – AI驱动的无损文本压缩系统，实现快速和高压缩比

FineZip 是一种基于大型语言模型（LLMs）的无损文本...

Languine – 面向开发者自动化应用程序的多语言翻译 AI 工具

Languine 是 AI 驱动的翻译工具，能帮助开发者简化...

Computer Use OOTB – 开源 GUI 框架，基于Claude 3.5 Computer Use API实现远程控制

Computer Use OOTB是开源的GUI 框架，基于...

AutoDev – 微软推出的AI编程和程序开发智能体框架

AutoDev是由微软的研究人员推出的一个 AI编程工具 ...

UltraMem – 字节豆包大模型团队推出的全新超稀疏模型架构

UltraMem 是字节跳动豆包大模型团队提出的全新超稀...

Sparc3D – 南洋理工等机构推出的3D模型生成框架

Sparc3D是南洋理工大学联合Sensory Univer...