Fox-1 – TensorOpera 开源的小语言模型系列

1个月前发布 38 00

Fox-1是TensorOpera推出的一系列小型语言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练,在50亿个指令遵循和多轮对话数据上微调。Fox-1采用3阶段数据课程和深度架构设计,具有256K的扩展词汇量和GQA机制,提高了效率和性能...

收录时间:
2025-12-16
Fox-1 – TensorOpera 开源的小语言模型系列Fox-1 – TensorOpera 开源的小语言模型系列

Fox-1是TensorOpera推出的一系列小型语言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练,在50亿个指令遵循和多轮对话数据上微调。Fox-1采用3阶段数据课程和深度架构设计,具有256K的扩展词汇量和GQA机制,提高了效率和性能。Fox-1模型在包括ARC Challenge、HellaSwag、MMLU、GSM8k等在内的多个标准语言模型基准测试中展现出卓越的性能,超越参数规模是其两倍的模型。

官网:https://huggingface.co/tensoropera/Fox-1-1.6B


立即打开官网

数据统计

相关导航