# 深度学习

Bagel
BAGEL是一款可扩展的统一多模态模型,它正在革新AI与复杂系统的交互方式。
#多模态
24

Veo 3
国外精选
Veo 3 是最新的视频生成模型,旨在通过更高的现实主义和音频效果,提供 4K 输出,能更准确地遵循用户的提示。
视频生成#深度学习
288

Blip 3o
Blip 3o 是一个基于 Hugging Face 平台的应用程序,利用先进的生成模型从文本生成图像,或对现有图像进行分析和回答。
图片生成#文本到图像开源
384

MNN LLM Android App
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。
模型训练与部署#人工智能开源
696

Dreamo
DreamO 是一种先进的图像定制模型,旨在提高图像生成的保真度和灵活性。
图片生成#深度学习开源
492

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
540

Primitiveanything
PrimitiveAnything 是一种利用自回归变换器生成 3D 模型的技术,能够自动创建细致的 3D 原始装配体。
3D建模#深度学习开源
156

Deerflow
DeerFlow 是一个深度研究框架,旨在结合语言模型与如网页搜索、爬虫及 Python 执行等专用工具,以推动深入研究工作。
研究工具#开源开源
456

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
456

Parakeet Tdt 0.6b V2
parakeet-tdt-0.6b-v2 是一个 600 百万参数的自动语音识别(ASR)模型,旨在实现高质量的英语转录,具有准确的时间戳预测和自动标点符号、大小写支持。
语音识别#深度学习开源
588

Camerabench
CameraBench 是一个用于分析视频中相机运动的模型,旨在通过视频理解相机的运动模式。
研究工具#相机运动开源
396

F Lite
国外精选
F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型,具有 100 亿个参数,专门训练于版权安全和适合工作环境 (SFW) 的内容。
图片生成#深度学习开源
828

Kimi Audio
Kimi-Audio 是一个先进的开源音频基础模型,旨在处理多种音频处理任务,如语音识别和音频对话。
语音识别#音频处理开源
1,620

Describe Anything
Describe Anything 模型(DAM)能够处理图像或视频的特定区域,并生成详细描述。
图片生成#视频处理开源
1,176

Flex.2 Preview
国外精选
Flex.2 是当前最灵活的文本到图像扩散模型,具备内置的重绘和通用控制功能。
图片生成#图像生成开源
2,400

Nes2net
Nes2Net 是一个为基础模型驱动的语音反欺诈任务设计的轻量级嵌套架构,具有较低的错误率,适用于音频深度假造检测。
安全#语音处理开源
948

D1
该模型通过强化学习和高质量推理轨迹的掩蔽自监督微调,实现了对扩散大语言模型的推理能力的提升。
写作助手#强化学习开源
780

Wan2.1 FLF2V 14B
中文精选
Wan2.1-FLF2V-14B 是一个开源的大规模视频生成模型,旨在推动视频生成领域的进步。
视频生成#深度学习开源
1,332

Framepack
FramePack 是一个创新的视频生成模型,旨在通过压缩输入帧的上下文来提高视频生成的质量和效率。
视频生成#AI 技术
1,740

Liquid
Liquid 是一个自回归生成模型,通过将图像分解为离散代码并与文本标记共享特征空间,促进视觉理解和文本生成的无缝集成。
AI模型#生成模型开源
108

GLM 4 32B
中文精选
GLM-4-32B 是一个高性能的生成语言模型,旨在处理多种自然语言任务。
AI模型#深度学习
2,076

Pusa
Pusa 通过帧级噪声控制引入视频扩散建模的创新方法,能够实现高质量的视频生成,适用于多种视频生成任务(文本到视频、图像到视频等)。
视频生成#开源开源
2,088

UNO
UNO 是一个基于扩散变换器的多图像条件生成模型,通过引入渐进式跨模态对齐和通用旋转位置嵌入,实现高一致性的图像生成。
图片生成#AI开源
1,572

Visualcloze
VisualCloze 是一个通过视觉上下文学习的通用图像生成框架,旨在解决传统任务特定模型在多样化需求下的低效率问题。
图片生成#视觉学习开源
2,220

Skyreels A2
SkyReels-A2 是一个基于视频扩散变换器的框架,允许用户合成和生成视频内容。
视频生成#深度学习开源
1,356

Megatts 3
MegaTTS 3 是由字节跳动开发的一款基于 PyTorch 的高效语音合成模型,具有超高质量的语音克隆能力。
语音克隆#深度学习开源
1,644

Easycontrol
EasyControl 是一个为 Diffusion Transformer(扩散变换器)提供高效灵活控制的框架,旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。
AI模型#图像生成开源
1,788

Dreamactor M1
优质新品
DreamActor-M1 是一个基于扩散变换器 (DiT) 的人类动画框架,旨在实现细粒度的整体可控性、多尺度适应性和长期时间一致性。
视频生成#视频生成开源
1,644

QVQ Max
中文精选
QVQ-Max 是 Qwen 团队推出的视觉推理模型,能够理解和分析图像及视频内容,提供解决方案。
AI模型#深度学习开源
3,120

Bizgen
国外精选
BizGen 是一个先进的模型,专注于文章级别的视觉文本渲染,旨在提升信息图表的生成质量和效率。
AI设计工具#视觉文本开源
4,284

Video T1
Video-T1 是一个视频生成模型,通过测试时间缩放技术(TTS)显著提升生成视频的质量和一致性。
视频生成#测试时间缩放开源
3,324

RF DETR
RF-DETR 是一个基于变压器的实时目标检测模型,旨在为边缘设备提供高精度和实时性能。
目标检测#深度学习开源
4,524

混元T1
中文精选
混元T1 是腾讯推出的超大规模推理模型,基于强化学习技术,通过大量后训练显著提升推理能力。
AI模型#人工智能
2,460

Infiniteyou
InfiniteYou(InfU)是一个基于扩散变换器的强大框架,旨在实现灵活的图像重构,并保持用户身份。
图片生成#身份保护开源
9,300

Pruna
Pruna 是一个为开发者设计的模型优化框架,通过一系列压缩算法,如量化、修剪和编译等技术,使得机器学习模型在推理时更快、体积更小且计算成本更低。
开发与工具#机器学习开源
1,320

长上下文调优(LCT)
长上下文调优(LCT)旨在解决当前单次生成能力与现实叙事视频制作之间的差距。
视频生成#深度学习开源
6,156

Thera
Thera 是一种先进的超分辨率技术,能够在不同尺度下生成高质量图像。
图片增强#图像处理开源
4,140

IMM
Inductive Moment Matching (IMM) 是一种先进的生成模型技术,主要用于高质量图像生成。
图片生成#图像生成开源
1,380

MIDI
MIDI是一种创新的图像到3D场景生成技术,它利用多实例扩散模型,能够从单张图像中直接生成具有准确空间关系的多个3D实例。
3D建模#图像处理开源
1,200

R1 Omni
R1-Omni 是一个创新的多模态情绪识别模型,通过强化学习提升模型的推理能力和泛化能力。
情感陪伴#情绪识别开源
1,416
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
876

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
336

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,116

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
540

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
972

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
456

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.36k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.41k