Tele FLM 1T : 1T开源多语言大型语言模型

Tele FLM 1T

简介 :

Tele-FLM-1T是一个开源的1T多语言大型语言模型，基于解码器仅Transformer架构，经过约2T tokens的训练。该模型在规模上展现出卓越的性能，有时甚至超越了更大的模型。除了分享模型权重外，还提供了核心设计、工程实践和训练细节，期待对学术和工业社区都有所裨益。

需求人群 :

目标受众为需要使用大型语言模型进行文本生成、机器翻译、问答系统等自然语言处理任务的研究人员和开发者。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 51.3K

使用场景

用于生成高质量的多语言文本内容

作为多语言机器翻译系统的核心模型

在问答系统中提供准确的信息检索和回答

产品特色

基于增长技术，分为52B、102B和1TB三个训练阶段

使用标准GPT风格的解码器仅Transformer架构，包含若干调整

Rotary Positional Embedding (RoPE)、RMSNorm和SwiGLU激活函数

与Llama架构兼容，代码调整最小化

在112个A800 SXM4 GPU服务器集群上训练，每个服务器有8个NVLink A800 GPU和2TB RAM

采用3D并行训练，结合数据并行、张量并行和流水线并行

提供模型权重和训练细节，促进社区使用和研究

使用教程

1. 访问Hugging Face模型库并找到Tele-FLM-1T模型

2. 阅读模型卡片，了解模型的详细信息和使用限制

3. 下载模型权重和相关代码

4. 根据提供的工程实践和训练细节调整模型以适应特定任务

5. 在本地或云环境中部署模型进行训练或推理

6. 使用模型进行文本生成或其他NLP任务

7. 分享使用经验和反馈，促进社区发展

精选AI产品推荐

智启未来，您的人工智能解决方案智库

简体中文

直接访问	48.39%	外链引荐	35.85%	邮件	0.03%
自然搜索	12.76%	社交媒体	2.96%	展示广告	0.02%