DCLM 7B
DCLM-7B模型适合需要进行大规模语言处理和生成的研究人员和开发者,特别是在需要处理英语数据的场景中。它的大规模参数和系统化数据整理技术使其在提高语言模型性能方面具有优势。
总访问量: 29,742,941
占比最多地区: US(17.94%)
792
简介
DCLM-Baseline-7B是一个7亿参数的语言模型,由DataComp for Language Models (DCLM)团队开发,主要使用英语。该模型旨在通过系统化的数据整理技术来提高语言模型的性能。模型训练使用了PyTorch与OpenLM框架,优化器为AdamW,学习率为2e-3,权重衰减为0.05,批次大小为2048序列,序列长度为2048个token,总训练token数达到了2.5T。模型训练硬件使用了H100 GPU。
截图
产品特色
使用Decoder-only Transformer架构,专注于解码任务。
支持英语(主要是)的语言处理。
使用AdamW优化器,具有2e-3的峰值学习率。
结合了StarCoder和ProofPile2数据集,达到4.1T token的数据量。
在多个任务上进行了评估,如MMLU、HellaSwag、Jeopardy等。
提供了详细的训练细节和评估结果,方便用户了解模型性能。
使用教程
首先安装open_lm库。
导入必要的模块和类,包括AutoTokenizer和AutoModelForCausalLM。
使用AutoTokenizer从预训练模型中加载tokenizer。
使用AutoModelForCausalLM从预训练模型中加载模型。
准备输入数据,并将其转换为模型所需的格式。
设置生成参数,如max_new_tokens、top_p等。
调用模型的generate方法生成文本。
使用tokenizer解码生成的文本,并打印输出。
流量来源
直接访问48.39%外链引荐35.85%邮件0.03%
自然搜索12.76%社交媒体2.96%展示广告0.02%
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图