Modernbert Base
Modernbert Base
目标受众为需要处理长文本数据的开发者、数据科学家和研究人员。ModernBERT-base由于其长文本处理能力和对英文及代码数据的优化,特别适合于自然语言处理、代码检索和混合(文本+代码)语义搜索等场景。
总访问量: 29,742,941
占比最多地区: US(17.94%)
648
简介
ModernBERT-base是一个现代化的双向编码器Transformer模型,预训练于2万亿英文和代码数据,原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进,使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务,如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码,因此可能在其他语言上的表现会有所降低。
截图
产品特色
支持长达8192个token的长文本处理能力
Rotary Positional Embeddings (RoPE) 支持长上下文
Local-Global Alternating Attention 提升长输入的效率
Unpadding和Flash Attention 优化推理效率
适用于大规模文本和代码数据的预训练
无需token type IDs,简化了下游任务的使用
支持使用Flash Attention 2以获得更高的效率
使用教程
1. 安装transformers库:使用pip安装git+https://github.com/huggingface/transformers.git。
2. 加载模型和分词器:使用AutoTokenizer和AutoModelForMaskedLM从预训练模型加载分词器和模型。
3. 准备输入文本:将待处理的文本输入到分词器中,获取模型需要的输入格式。
4. 模型推理:将处理好的输入数据传递给模型,进行推理。
5. 获取预测结果:对于Masked Language Model任务,获取模型对[MASK]位置的预测结果。
6. 应用下游任务:对于分类、检索或问答等任务,可以对ModernBERT进行微调以适应特定任务。
7. 使用Flash Attention 2优化效率:如果GPU支持,安装flash-attn库并使用以获得更高的推理效率。
流量来源
直接访问48.39%外链引荐35.85%邮件0.03%
自然搜索12.76%社交媒体2.96%展示广告0.02%
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图
替代品
Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理
Zerosearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLMs)的搜索能力,而无需与实际搜索引擎进行交互。
AI模型#搜索能力
Notellm
NoteLLM 是一款专注于用户生成内容的可检索大型语言模型,旨在提升推荐系统的性能。
AI模型#多模态处理
Deepseek Prover V2 671B
DeepSeek-Prover-V2-671B 是一个先进的人工智能模型,旨在提供强大的推理能力。
AI模型#开源
Xiaomi MiMo
优质新品
Xiaomi MiMo是小米公司开源的首个推理大模型,专为推理任务设计,具备卓越的数学推理和代码生成能力。
AI模型
Brave Search MCP Server
Brave Search MCP Server 是由 Brave Software 开发的网络搜索工具,拥有超过 100 亿网页的索引,支持本地搜索功能,能快速提供用户需要的信息,适合寻找实时、本地化的商家和服务。
AI搜索#本地搜索
Liquid
Liquid 是一个自回归生成模型,通过将图像分解为离散代码并与文本标记共享特征空间,促进视觉理解和文本生成的无缝集成。
AI模型#生成模型
Skywork OR1
优质新品
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。
AI模型#机器学习
Kimi VL
中文精选
Kimi-VL 是一个先进的混合专家视觉语言模型,专为多模态推理、长上下文理解及强大代理能力而设计。
AI模型#推理