Tele FLM 1T
Tele FLM 1T
目标受众为需要使用大型语言模型进行文本生成、机器翻译、问答系统等自然语言处理任务的研究人员和开发者。
总访问量: 29,742,941
占比最多地区: US(17.94%)
372
简介
Tele-FLM-1T是一个开源的1T多语言大型语言模型,基于解码器仅Transformer架构,经过约2T tokens的训练。该模型在规模上展现出卓越的性能,有时甚至超越了更大的模型。除了分享模型权重外,还提供了核心设计、工程实践和训练细节,期待对学术和工业社区都有所裨益。
截图
产品特色
基于增长技术,分为52B、102B和1TB三个训练阶段
使用标准GPT风格的解码器仅Transformer架构,包含若干调整
Rotary Positional Embedding (RoPE)、RMSNorm和SwiGLU激活函数
与Llama架构兼容,代码调整最小化
在112个A800 SXM4 GPU服务器集群上训练,每个服务器有8个NVLink A800 GPU和2TB RAM
采用3D并行训练,结合数据并行、张量并行和流水线并行
提供模型权重和训练细节,促进社区使用和研究
使用教程
1. 访问Hugging Face模型库并找到Tele-FLM-1T模型
2. 阅读模型卡片,了解模型的详细信息和使用限制
3. 下载模型权重和相关代码
4. 根据提供的工程实践和训练细节调整模型以适应特定任务
5. 在本地或云环境中部署模型进行训练或推理
6. 使用模型进行文本生成或其他NLP任务
7. 分享使用经验和反馈,促进社区发展
流量来源
直接访问48.39%外链引荐35.85%邮件0.03%
自然搜索12.76%社交媒体2.96%展示广告0.02%
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图