# 预训练
Crawl4llm
Crawl4LLM是一个开源的网络爬虫项目,旨在为大型语言模型(LLM)的预训练提供高效的数据爬取解决方案。
开发与工具#网络爬虫开源
1,296
Nemotron CC
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。
AI模型#数据集
432
中文互联网语料资源平台
优质新品
中文互联网语料资源平台是由中国网络空间安全协会主办的专业网站,旨在为人工智能大模型的预训练提供高质量、安全合规的中文语料资源。
AI模型#语料库
6,456
Modernbert Large
ModernBERT-large是一个现代化的双向编码器Transformer模型(BERT风格),在2万亿个英文和代码数据上预训练,具有长达8192个token的原生上下文长度。
AI搜索#Transformer开源
504
Yulan Mini
YuLan-Mini是由中国人民大学AI Box团队开发的一款轻量级语言模型,具有2.4亿参数,尽管仅使用1.08T的预训练数据,但其性能可与使用更多数据训练的行业领先模型相媲美。
AI模型#自然语言处理开源
528
POINTS Yi 1.5 9B Chat
POINTS-Yi-1.5-9B-Chat是一个视觉语言模型,它集成了最新的视觉语言模型技术和微信AI提出的新技术。
AI模型#微信AI开源
324
Fineweb2
FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。
AI模型#预训练开源
384
Tablegpt2
TableGPT2是一个大型多模态模型,专门针对表格数据进行预训练和微调,以解决实际应用中表格数据整合不足的问题。
AI模型#多模态模型开源
2,604
Fineweb
FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据,来源于CommonCrawl。
AI数据挖掘#数据集开源
1,188
Chinese Tiny LLM
优质新品
Chinese Tiny LLM(CT-LLM)是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。
AI模型#语言模型开源
1,320
MM1
苹果发布了自己的大语言模型MM1,这是一个最高有30B规模的多模态LLM。
AI模型#LLM
1,056
YOLO World
YOLO-World是一款先进的实时开放词汇物体检测器,基于You Only Look Once (YOLO)系列检测器,并通过视觉-语言建模和大规模数据集的预训练,增强了开放词汇检测能力。
AI图像检测识别#物体检测开源
3,492