Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

1个月前发布 24 00

Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,提升大语言模型(LLM)预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值,优先抓取高价值网页,相比传统爬虫效率提升近 5 倍。Crawl4LLM支持三种爬取模式:智能模式、随机爬取模式和基于链接数量的爬取模式,同时具备爬虫状态定期保存、数据可视化等...

收录时间:
2025-12-16
Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,提升大语言模型(LLM)预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值,优先抓取高价值网页,相比传统爬虫效率提升近 5 倍。Crawl4LLM支持三种爬取模式:智能模式、随机爬取模式和基于链接数量的爬取模式,同时具备爬虫状态定期保存、数据可视化等功能,能与 DCLM 框架无缝对接,直接用在模型训练。

官网:https://github.com/cxcscmu/Crawl4LLM


立即打开官网

数据统计

相关导航