Mobilellm 125M : 高效优化的小型语言模型，专为设备端应用设计。

Mobilellm 125M

Mobilellm 125M

AI模型开发与工具 #语言模型 #设备端应用 #自动回归 #变换器架构 #零样本推理普通产品开源

简介 :

MobileLLM-125M是由Meta开发的自动回归语言模型，它利用优化的变换器架构，专为资源受限的设备端应用而设计。该模型集成了包括SwiGLU激活函数、深度薄架构、嵌入共享和分组查询注意力等多项关键技术。MobileLLM-125M/350M在零样本常识推理任务上相较于前代125M/350M SoTA模型分别取得了2.7%和4.3%的准确率提升。该模型的设计理念可有效扩展到更大模型，MobileLLM-600M/1B/1.5B均取得了SoTA结果。

需求人群 :

目标受众为需要在资源受限的设备端部署自然语言处理应用的开发者和研究人员。MobileLLM-125M因其优化的架构和高效的推理能力，特别适合移动设备、IoT设备等场景，能够提供接近SoTA的性能而消耗更少的资源。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 49.1K

使用场景

使用MobileLLM-125M进行设备端的文本生成任务。

在移动设备上部署MobileLLM-125M进行自然语言理解。

利用MobileLLM-125M进行常识推理任务，提升设备端应用的智能水平。

产品特色

• 优化的变换器架构：专为设备端应用设计的轻量级模型。

• 多种关键技术集成：包括SwiGLU激活函数、深度薄架构等。

• 零样本常识推理：在多个常识推理任务上超越了前代模型。

• 支持HuggingFace平台：方便加载预训练模型进行微调和评估。

• 支持自定义代码：提供MobileLLM代码库，支持自定义训练和评估。

• 多模型尺寸：提供从125M到1.5B不同参数量的模型选择。

• 高效训练成本：使用32个NVIDIA A100 80G GPU训练1T个token的时间成本。

使用教程

1. 访问HuggingFace官网并搜索MobileLLM-125M模型。

2. 使用HuggingFace提供的代码加载预训练的MobileLLM-125M模型。

3. 根据需要对模型进行微调或直接使用预训练模型进行推理。

4. 若需要自定义训练，可从GitHub获取MobileLLM的代码库并按照指南进行操作。

5. 利用模型进行文本生成或其他NLP任务，并评估模型性能。

6. 根据项目需求调整模型参数，优化模型以适应特定的设备或应用场景。

精选AI产品推荐

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

AI模型多模态

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AI模型图像生成

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24