# 生成模型

Legogpt
LegoGPT 是第一个通过文本提示生成物理稳定的乐高模型的方法。
AI设计工具#设计开源
48

Audio SDS
Audio-SDS 是一个将 Score Distillation Sampling(SDS)概念应用于音频扩散模型的框架。
音频生成#生成模型
204

Liquid
Liquid 是一个自回归生成模型,通过将图像分解为离散代码并与文本标记共享特征空间,促进视觉理解和文本生成的无缝集成。
AI模型#生成模型开源
120

UNO
UNO 是一个基于扩散变换器的多图像条件生成模型,通过引入渐进式跨模态对齐和通用旋转位置嵌入,实现高一致性的图像生成。
图片生成#AI开源
1,572

Easycontrol
EasyControl 是一个为 Diffusion Transformer(扩散变换器)提供高效灵活控制的框架,旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。
AI模型#图像生成开源
1,788

IMM
Inductive Moment Matching (IMM) 是一种先进的生成模型技术,主要用于高质量图像生成。
图片生成#图像生成开源
1,392

MIDI
MIDI是一种创新的图像到3D场景生成技术,它利用多实例扩散模型,能够从单张图像中直接生成具有准确空间关系的多个3D实例。
3D建模#图像处理开源
1,200

SRM
SRM是一种基于去噪生成模型的空间推理框架,用于处理连续变量集合的推理任务。
模型训练与部署#去噪模型
444

Bioemu
BioEmu 是微软开发的一种深度学习模型,用于模拟蛋白质的平衡系综。
研究工具#深度学习开源
720

Eurusprm Stage2
EurusPRM-Stage2是一个先进的强化学习模型,通过隐式过程奖励来优化生成模型的推理过程。
模型训练与部署#隐式过程奖励开源
384

Eurusprm Stage1
EurusPRM-Stage1是PRIME-RL项目的一部分,旨在通过隐式过程奖励来增强生成模型的推理能力。
AI模型#隐式过程奖励开源
300

Flexrag
FlexRAG是一个用于检索增强生成(RAG)任务的灵活且高性能的框架。
开发与工具#生成模型开源
312

Generative Omnimatte
Generative Omnimatte是一种先进的视频处理技术,能够将视频分解为多个RGBA层,每层包含可见对象及其效果,如阴影和反射。
视频编辑#特效开源
360

Instantir
InstantIR是一种基于扩散模型的盲图像恢复方法,能够在测试时处理未知退化问题,提高模型的泛化能力。
图片编辑#盲图像恢复开源
1,416

Longrag
LongRAG是一个基于大型语言模型(LLM)的双视角、鲁棒的检索增强型生成系统范式,旨在增强对复杂长文本知识的理解和检索能力。
研究工具#检索增强开源
552

Stable Diffusion 3.5 Medium
Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型,由Stability AI开发,具有改进的图像质量、排版、复杂提示理解和资源效率。
图片生成#生成模型开源
948

Scm
OpenAI 提出的连续时间一致性模型(sCM)是一种生成模型,它在生成高质量样本时,只需要两个采样步骤,与领先的扩散模型相比,具有显著的速度优势。
模型训练与部署#图像生成
324

Stable Diffusion 3.5 Large Turbo
Stable Diffusion 3.5 Large Turbo 是一个基于文本生成图像的多模态扩散变换器(MMDiT)模型,采用了对抗性扩散蒸馏(ADD)技术,提高了图像质量、排版、复杂提示理解和资源效率,特别注重减少推理步骤。
图片生成#生成模型开源
1,404

Fluxmusic
FluxMusic是一个基于PyTorch实现的文本到音乐生成模型,它通过扩散式修正流变换器探索了一种简单的文本到音乐生成方法。
AI音乐生成#生成模型开源
1,008

Viper
ViPer是一种个性化生成模型,可以根据用户的视觉偏好生成符合个人口味的图像。
AI图像生成#生成模型开源
888

Maskvat
MaskVAT是一种视频到音频(V2A)生成模型,它利用视频的视觉特征来生成与场景匹配的逼真声音。
AI视频生成#同步性开源
624

SV4D
优质新品
Stable Video 4D (SV4D) 是基于 Stable Video Diffusion (SVD) 和 Stable Video 3D (SV3D) 的生成模型,它接受单一视角的视频并生成该对象的多个新视角视频(4D 图像矩阵)
AI视频生成#视频生成开源
1,188

Auraflow
AuraFlow v0.1是一个完全开源的、基于流的文本到图像生成模型,它在GenEval上达到了最先进的结果。
AI图像生成#生成模型开源
2,388

Gaussiancube
GaussianCube是一种创新的3D辐射表示方法,它通过结构化和显式的表示方式,极大地促进了三维生成建模的发展。
AI 3D工具#生成模型开源
876

PROTEUS
国外精选
PROTEUS是Apparate Labs推出的一款下一代基础模型,用于实时表情生成人类。
AI角色生成#实时
744

Cookbooks
优质新品
Cookbooks是Cohere提供的一个在线文档平台,旨在帮助开发者和用户了解如何利用Cohere的生成AI平台构建各种应用。
AI开发助手#生成模型
660

PCM
优质新品
Phased Consistency Model(PCM)是一种新型的生成模型,旨在解决Latent Consistency Model(LCM)在文本条件高分辨率生成中的局限性。
AI图像生成#文本条件生成开源
2,100

Imagen 3 By Google
Imagen 3是我们质量最高的文本到图像模型,能够生成具有更好细节、更丰富光照和更少干扰性伪影的图像。
AI图像生成#人工智能
816

Lumina T2X
Lumina-T2X是一个先进的文本到任意模态生成框架,它能够将文本描述转换为生动的图像、动态视频、详细的多视图3D图像和合成语音。
AI图像生成#文本到视频开源
1,056

Unifl
UniFL是一个项目,旨在提升生成模型质量和加速推理速度。
AI图像生成#图像质量开源
360

Cosxl
Cos Stable Diffusion XL 1.0 Base调整为使用余弦连续EDM VPred调度。
AI图像生成#图像编辑开源
2,760

Champ
Champ 是一种用于生成 3D 物体形状的生成模型,它结合了隐函数和卷积神经网络,以生成高质量、多样化和逼真的 3D 形状。
AI图像生成#3D 物体形状开源
1,908

Mistral 7B Instruct V0.2
Mistral-7B-Instruct-v0.2 是一款基于 Mistral-7B-v0.2 模型进行指令微调的大型语言模型。
AI模型#指令微调开源
1,992

Trajectory Consistency Distillation (TCD)
TCD是一种用于文本到图像合成的一致性蒸馏技术,它通过轨迹一致性函数(TCF)和策略性随机采样(SSS)来减少合成过程中的错误。
AI图像生成#一致性蒸馏开源
1,596

Ideogram 1.0
Ideogram 1.0是一个文本转图像的生成模型,能够根据文本描述生成高保真的图像。
AI图像生成#生成模型
11.57k

GLIGEN
GLIGEN是一个开放式的基于文本提示的图像生成模型,它可以基于文本描述和边界框等限定条件生成图像。
AI图像生成#深度学习开源
2,196

Stable Video Diffusion 1.1 Image To Video
Stable Video Diffusion (SVD) 1.1 Image-to-Video 是一个扩散模型,通过将静止图像作为条件帧,生成相应的视频。
AI视频生成#图像到视频开源
16.32k

Orthogonal Finetuning (OFT)
Controlling Text-to-Image Diffusion研究了如何有效引导或控制强大的文本到图像生成模型进行各种下游任务。
图片生成#图像合成
1,236

3dtopia
3DTopia是一个两阶段的文本到3D生成模型。
AI 3D工具#3D开源
3,336

SCEPTER
SCEPTER是一个开源代码库,致力于生成式模型的训练、调优和推理,涵盖图像生成、迁移、编辑等一系列下游任务。
AI模型#生成模型开源
2,436
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k