简介
ModernBERT-base是一个现代化的双向编码器Transformer模型,预训练于2万亿英文和代码数据,原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进,使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务,如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码,因此可能在其他语言上的表现会有所降低。
截图

产品特色
支持长达8192个token的长文本处理能力
Rotary Positional Embeddings (RoPE) 支持长上下文
Local-Global Alternating Attention 提升长输入的效率
Unpadding和Flash Attention 优化推理效率
适用于大规模文本和代码数据的预训练
无需token type IDs,简化了下游任务的使用
支持使用Flash Attention 2以获得更高的效率
使用教程
1. 安装transformers库:使用pip安装git+https://github.com/huggingface/transformers.git。
2. 加载模型和分词器:使用AutoTokenizer和AutoModelForMaskedLM从预训练模型加载分词器和模型。
3. 准备输入文本:将待处理的文本输入到分词器中,获取模型需要的输入格式。
4. 模型推理:将处理好的输入数据传递给模型,进行推理。
5. 获取预测结果:对于Masked Language Model任务,获取模型对[MASK]位置的预测结果。
6. 应用下游任务:对于分类、检索或问答等任务,可以对ModernBERT进行微调以适应特定任务。
7. 使用Flash Attention 2优化效率:如果GPU支持,安装flash-attn库并使用以获得更高的推理效率。
流量来源
直接访问 | 48.39% | 外链引荐 | 35.85% | 邮件 | 0.03% |
自然搜索 | 12.76% | 社交媒体 | 2.96% | 展示广告 | 0.02% |
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图
同类开源产品

Dmind
DMind-1 和 DMind-1-mini 是针对 Web3 任务的领域专用大型语言模型,提供比其他通用模型更高的领域准确性、指令跟随能力及专业理解。
AI模型#人工智能

Appearonai
AppearOnAI致力于提升网站在AI聊天机器人中的可见性,通过专业建议和见解帮助用户优化其在线存在,以适应AI时代的发展。
AI搜索#AI优化

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理

Zerosearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLMs)的搜索能力,而无需与实际搜索引擎进行交互。
AI模型#搜索能力

Notellm
NoteLLM 是一款专注于用户生成内容的可检索大型语言模型,旨在提升推荐系统的性能。
AI模型#多模态处理

Deepseek Prover V2 671B
DeepSeek-Prover-V2-671B 是一个先进的人工智能模型,旨在提供强大的推理能力。
AI模型#开源

Synthanswer AI
SynthAnswer AI是一款AI问答助手,能够通过截图获取问题并在几秒内提供准确答案。
AI搜索#学习

Xiaomi MiMo
优质新品
Xiaomi MiMo是小米公司开源的首个推理大模型,专为推理任务设计,具备卓越的数学推理和代码生成能力。
AI模型

Dump.ai
Dump.ai是一个专家将专业知识转化为AI代理并赚取收入的市场。
AI模型#专家
替代品

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理

Zerosearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLMs)的搜索能力,而无需与实际搜索引擎进行交互。
AI模型#搜索能力

Notellm
NoteLLM 是一款专注于用户生成内容的可检索大型语言模型,旨在提升推荐系统的性能。
AI模型#多模态处理

Deepseek Prover V2 671B
DeepSeek-Prover-V2-671B 是一个先进的人工智能模型,旨在提供强大的推理能力。
AI模型#开源

Xiaomi MiMo
优质新品
Xiaomi MiMo是小米公司开源的首个推理大模型,专为推理任务设计,具备卓越的数学推理和代码生成能力。
AI模型

Brave Search MCP Server
Brave Search MCP Server 是由 Brave Software 开发的网络搜索工具,拥有超过 100 亿网页的索引,支持本地搜索功能,能快速提供用户需要的信息,适合寻找实时、本地化的商家和服务。
AI搜索#本地搜索

Liquid
Liquid 是一个自回归生成模型,通过将图像分解为离散代码并与文本标记共享特征空间,促进视觉理解和文本生成的无缝集成。
AI模型#生成模型

Skywork OR1
优质新品
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。
AI模型#机器学习

Kimi VL
中文精选
Kimi-VL 是一个先进的混合专家视觉语言模型,专为多模态推理、长上下文理解及强大代理能力而设计。
AI模型#推理
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k