Fox-1 – TensorOpera 开源的小语言模型系列

4个月前发布 142 00

Fox-1是TensorOpera推出的一系列小型语言模型（SLMs），包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练，在50亿个指令遵循和多轮对话数据上微调。Fox-1采用3阶段数据课程和深度架构设计，具有256K的扩展词汇量和GQA机制，提高了效率和性能...

收录时间：

2025-12-16

打开网站手机查看

Fox-1 – TensorOpera 开源的小语言模型系列

Fox-1 – TensorOpera 开源的小语言模型系列

Fox-1是TensorOpera推出的一系列小型语言模型（SLMs），包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练，在50亿个指令遵循和多轮对话数据上微调。Fox-1采用3阶段数据课程和深度架构设计，具有256K的扩展词汇量和GQA机制，提高了效率和性能。Fox-1模型在包括ARC Challenge、HellaSwag、MMLU、GSM8k等在内的多个标准语言模型基准测试中展现出卓越的性能，超越参数规模是其两倍的模型。

官网：https://huggingface.co/tensoropera/Fox-1-1.6B

立即打开官网

数据统计

相关导航

T2I-R1 – 港中文联合上海AI Lab推出文生图模型

T2I-R1 是香港中文大学和上海AI Lab联合推出的新型...

Depth Anything – Tiktok等推出的单目深度估计模型

Depth Anything是由来自Tiktok、香港大学和...

In-Context LoRA – 阿里通义推出的基于DiTs的图像生成框架

In-Context LoRA是阿里巴巴通义实验室推出的基于...

TinyVLA – 华东师范和上海大学推出面向机器人操控VLA模型

TinyVLA是一种面向机器人操控的视觉-语言-动作（VLA...

ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架

ASAP（Aligning Simulation and R...

3FS – DeepSeek开源的高性能分布式文件系统

3FS（Fire-Flyer File System）是 D...

CapWords – AI语言学习应用，识别物体提供对应的外语单词和发音

CapWords 是创新的语言学习应用，通过 AI 技术让用...

IterComp – 清北、牛津等多所高校联合推出的文本到图像生成框架

IterComp是一个由清华大学、北京大学、LibAI La...