KTransformers – 清华开源的大语言模型推理优化框架

4个月前发布 108 00

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目，能优化大语言模型的推理性能，降低硬件门槛。KTransformers基于GPU/CPU异构计算策略，用MoE架构的稀疏性，支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版，预处理速度最高达到286 tokens/s，推理...

收录时间：

2025-12-16

打开网站手机查看

KTransformers – 清华开源的大语言模型推理优化框架

KTransformers – 清华开源的大语言模型推理优化框架

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目，能优化大语言模型的推理性能，降低硬件门槛。KTransformers基于GPU/CPU异构计算策略，用MoE架构的稀疏性，支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版，预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。项目用基于计算强度的offload策略、高性能算子和CUDA Graph优化等技术，显著提升推理速度。

官网：https://github.com/kvcache-ai/ktransformers

立即打开官网

数据统计

相关导航

AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架

AvatarGO 是南洋理工大学S-Lab、上海 AI La...

SVDQuant – MIT 推出的扩散模型后训练量化技术

SVDQuant是MIT研究团队推出的后训练量化技术，针对扩...

Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型

Infinite Mobility 是上海AI Lab推出的...

LongWriter – 清华联合智谱AI推出的长文本生成模型

LongWriter 是清华大学联合智谱AI 推出的长文本...

AMD-135M – AMD推出的首款小型语言模型

AMD-135M是AMD推出的首款小型语言模型（SLM），为...

AgiBot World – 智元机器人开源的百万真机数据集

AgiBot World是智元机器人开源的百万真机数据集，旨...

Smart PDFs – 免费开源的 AI PDF 文档总结工具

Smart PDFs 是免费开源的 AI 驱动 PDF 文档...

小冰岛 – AI虚拟社交平台，在虚拟岛屿创造克隆人进行互动生活

小冰岛是AI社交平台，用户在虚拟岛屿上创造克隆人，与之互动生...