InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集

3个月前发布 72 00

InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM...

收录时间:
2025-12-16
InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集

InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM-WebMath-40B 能显著提升模型在数学推理方面的能力,在 MathVerse 和 We-Math 等基准测试中取得了优异的成绩。

官网:https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B


立即打开官网

数据统计

相关导航