# 预训练

Crawl4llm
Crawl4LLM是一个开源的网络爬虫项目,旨在为大型语言模型(LLM)的预训练提供高效的数据爬取解决方案。
开发与工具#网络爬虫开源
1,296

Nemotron CC
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。
AI模型#数据集
432

中文互联网语料资源平台
优质新品
中文互联网语料资源平台是由中国网络空间安全协会主办的专业网站,旨在为人工智能大模型的预训练提供高质量、安全合规的中文语料资源。
AI模型#语料库
6,456

Modernbert Large
ModernBERT-large是一个现代化的双向编码器Transformer模型(BERT风格),在2万亿个英文和代码数据上预训练,具有长达8192个token的原生上下文长度。
AI搜索#Transformer开源
504

Yulan Mini
YuLan-Mini是由中国人民大学AI Box团队开发的一款轻量级语言模型,具有2.4亿参数,尽管仅使用1.08T的预训练数据,但其性能可与使用更多数据训练的行业领先模型相媲美。
AI模型#自然语言处理开源
528

POINTS Yi 1.5 9B Chat
POINTS-Yi-1.5-9B-Chat是一个视觉语言模型,它集成了最新的视觉语言模型技术和微信AI提出的新技术。
AI模型#微信AI开源
324

Fineweb2
FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。
AI模型#预训练开源
384

Tablegpt2
TableGPT2是一个大型多模态模型,专门针对表格数据进行预训练和微调,以解决实际应用中表格数据整合不足的问题。
AI模型#多模态模型开源
2,604

Fineweb
FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据,来源于CommonCrawl。
AI数据挖掘#数据集开源
1,188

Chinese Tiny LLM
优质新品
Chinese Tiny LLM(CT-LLM)是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。
AI模型#语言模型开源
1,320

MM1
苹果发布了自己的大语言模型MM1,这是一个最高有30B规模的多模态LLM。
AI模型#LLM
1,056

YOLO World
YOLO-World是一款先进的实时开放词汇物体检测器,基于You Only Look Once (YOLO)系列检测器,并通过视觉-语言建模和大规模数据集的预训练,增强了开放词汇检测能力。
AI图像检测识别#物体检测开源
3,492
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k