DCLM
DCLM 面向需要构建和训练大型语言模型的研究人员和开发者,特别是那些寻求通过优化数据集设计来提升模型性能的专业人士。它适用于需要处理大规模数据集并希望在不同计算规模上进行实验的场景。
总访问量: 474,564,576
占比最多地区: US(19.34%)
624
简介
DataComp-LM (DCLM) 是一个为构建和训练大型语言模型(LLMs)而设计的综合性框架,提供了标准化的语料库、基于open_lm框架的高效预训练配方,以及超过50种评估方法。DCLM 支持研究人员在不同的计算规模上实验不同的数据集构建策略,从411M到7B参数模型。DCLM 通过优化的数据集设计显著提高了模型性能,并且已经促成了多个高质量数据集的创建,这些数据集在不同规模上表现优异,超越了所有开放数据集。
截图
产品特色
提供超过300T未过滤的CommonCrawl语料库
基于open_lm框架提供有效的预训练配方
提供超过50种评估方法来评估模型性能
支持从411M到7B参数模型的不同计算规模
允许研究人员实验不同的数据集构建策略
通过优化数据集设计提高模型性能
使用教程
克隆DCLM仓库到本地
安装所需的依赖项
设置AWS存储和Ray分布式处理环境
选择原始数据源并创建引用JSON
定义数据处理步骤并创建pipeline配置文件
设置Ray集群并运行数据处理脚本
将处理后的数据tokenize和shuffle
使用tokenized数据集运行模型训练脚本
评估训练好的模型并提交结果到DCLM排行榜
流量来源
直接访问51.61%外链引荐33.46%邮件0.04%
自然搜索12.58%社交媒体2.19%展示广告0.11%
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图