# 机器学习

Worldpm 72B
WorldPM-72B 是一个通过大规模训练获得的统一偏好建模模型,具有显著的通用性和较强的表现能力。
写作助手#自然语言处理开源
252

Audio SDS
Audio-SDS 是一个将 Score Distillation Sampling(SDS)概念应用于音频扩散模型的框架。
音频生成#生成模型
204

Docsynecx By SynecX AI Labs
docsynecx是一款智能文档处理AI平台,通过AI、机器学习和OCR技术,自动化处理各种文档类型,包括发票处理、收据、提单等。
数据分析#AI
180

Parakeet Tdt 0.6b V2
parakeet-tdt-0.6b-v2 是一个 600 百万参数的自动语音识别(ASR)模型,旨在实现高质量的英语转录,具有准确的时间戳预测和自动标点符号、大小写支持。
语音识别#深度学习开源
588

Step1x Edit
国外精选
Step1X-Edit 是一种实用的通用图像编辑框架,利用 MLLMs 的图像理解能力解析编辑指令,生成编辑令牌,并通过 DiT 网络解码为图像。
图片编辑#机器学习开源
708

Nes2net
Nes2Net 是一个为基础模型驱动的语音反欺诈任务设计的轻量级嵌套架构,具有较低的错误率,适用于音频深度假造检测。
安全#语音处理开源
960

Easevoice Trainer
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。
开发与工具#机器学习开源
1,116

Framepack
FramePack 是一个创新的视频生成模型,旨在通过压缩输入帧的上下文来提高视频生成的质量和效率。
视频生成#AI 技术
1,740

Genprm
GenPRM 是一种新兴的过程奖励模型(PRM),通过生成推理来提高在测试时的计算效率。
模型训练与部署#生成推理
1,428

Skywork OR1
优质新品
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。
AI模型#机器学习开源
2,040

Pusa
Pusa 通过帧级噪声控制引入视频扩散建模的创新方法,能够实现高质量的视频生成,适用于多种视频生成任务(文本到视频、图像到视频等)。
视频生成#开源开源
2,088

Dream 7B
Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。
AI模型#大语言模型开源
2,928

Versatile OCR Program
该产品是一个专门设计的 OCR 系统,旨在从复杂的教育材料中提取结构化数据,支持多语言文本、数学公式、表格和图表,能够生成适用于机器学习训练的高质量数据集。
数据分析#机器学习开源
516

Arthur Engine
Arthur Engine 是一个旨在监控和治理 AI/ML 工作负载的工具,利用流行的开源技术和框架。
模型训练与部署#机器学习开源
756

Deepseek V3 0324
DeepSeek-V3-0324 是一个先进的文本生成模型,具有 685 亿参数,采用 BF16 和 F32 张量类型,能够支持高效的推理和文本生成。
AI模型#对话系统开源
7,104

RF DETR
RF-DETR 是一个基于变压器的实时目标检测模型,旨在为边缘设备提供高精度和实时性能。
目标检测#深度学习开源
4,524

LHM
LHM(大规模可动画人类重建模型)利用多模态变压器架构进行高保真 3D 头像重建,支持从单张图像生成可动画的 3D 人类形象。
3D建模#人类模型开源
936

Pruna
Pruna 是一个为开发者设计的模型优化框架,通过一系列压缩算法,如量化、修剪和编译等技术,使得机器学习模型在推理时更快、体积更小且计算成本更低。
开发与工具#机器学习开源
1,332

Spatiallm
SpatialLM 是一个专为处理 3D 点云数据设计的大型语言模型,能够生成结构化的 3D 场景理解输出,包括建筑元素和对象的语义类别。
3D建模#点云处理开源
2,844

Orpheus TTS
Orpheus TTS 是一个基于 Llama-3b 模型的开源文本转语音系统,旨在提供更加自然的人类语音合成。
文本转声音#开源开源
2,712

Firefox Translations Models
Firefox Translations Models 是由Mozilla开发的一组CPU优化的神经机器翻译模型,专为Firefox浏览器的翻译功能设计。
翻译#机器学习开源
1,164

Data Science Agent In Colab
优质新品
Data Science Agent in Colab 是 Google 推出的一款基于 Gemini 的智能工具,旨在简化数据科学工作流程。
数据分析#数据分析
1,644

3FS
3FS是一个专为AI训练和推理工作负载设计的高性能分布式文件系统。
开发与工具#分布式文件系统开源
480

Thunder Compute
Thunder Compute是一个专注于AI/ML开发的GPU云服务平台,通过虚拟化技术,帮助用户以极低的成本使用高性能GPU资源。
开发平台#机器学习
420

Olmocr
olmOCR是由Allen Institute for Artificial Intelligence (AI2)开发的一个开源工具包,旨在将PDF文档线性化,以便用于大型语言模型(LLM)的训练。
开发与工具#LLM训练开源
1,812

Tensorpool
TensorPool 是一个专注于简化机器学习模型训练的云 GPU 平台。
模型训练与部署#云 GPU
348

The Ultra Scale Playbook
国外精选
The Ultra-Scale Playbook 是一个基于 Hugging Face Spaces 提供的模型工具,专注于超大规模系统的优化和设计。
开发与工具#优化开源
1,284

Heron
Heron是一款专注于自动化文档处理的生产力工具。
自动化工作流#文档自动化
600

Deepresearch123
DeepResearch123是一个AI研究资源导航平台,旨在为研究人员、开发者和爱好者提供丰富的AI研究资源、文档和实践案例。
AI信息平台#研究
984

Finbar
Finbar是一个专注于提供全球基础金融数据的平台。
金融#自动化
816

Momodel.cn
中文精选
Mo是一个专注于 AI 技术学习和应用的平台,旨在为用户提供从基础到高级的系统学习资源,帮助各类学习者掌握 AI 技能,并将其应用于实际项目中。
学习教育#学习
3,612

Ai Data Science Team
该产品是一个AI驱动的数据科学团队模型,旨在帮助用户以更快的速度完成数据科学任务。
数据分析#数据科学开源
768

Timesfm 2.0 500m Pytorch
TimesFM是一个由Google Research开发的预训练时间序列预测模型,用于时间序列预测任务。
AI模型#机器学习开源
1,152

Imitate Before Detect
Imitate Before Detect 是一种创新的文本检测技术,旨在提高对机器修订文本的检测能力。
内容检测#机器学习开源
408

Bakery
Bakery是一个专注于开源AI模型的微调与变现的在线平台,为AI初创企业、机器学习工程师和研究人员提供了一个便捷的工具,使他们能够轻松地对AI模型进行微调,并在市场中进行变现。
模型训练与部署#模型微调
864

Vectrix Graphs
vectrix-graphs 是一个强大的图形库,专注于多模型嵌入的可视化。
数据分析#多模型嵌入开源
372

Sonus 1
优质新品
Sonus-1是Sonus AI推出的一系列大型语言模型(LLMs),旨在推动人工智能的边界。
AI模型#大型语言模型
1,824

Text To CAD UI
Text-to-CAD UI是一个利用自然语言提示生成B-Rep CAD文件和网格的平台。
3D建模#3D建模
1,728

Zoo.dev
国外精选
Zoo提供了一个现代的硬件设计工具包,包括GPU驱动引擎、按需付费、远程流媒体和开放API兼容等特点,旨在提高硬件设计效率和降低成本。
开发与工具#CAD软件
1,284

Tangoflux
TangoFlux是一个高效的文本到音频(TTA)生成模型,拥有515M参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。
文本转声音#音频生成开源
672
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k