# 扩散模型

Dream 7B
Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。
AI模型#大语言模型开源
2,928

Accvideo
AccVideo 是一种新颖的高效蒸馏方法,通过合成数据集加速视频扩散模型的推理速度。
视频生成#人工智能开源
2,652

Infiniteyou
InfiniteYou(InfU)是一个基于扩散变换器的强大框架,旨在实现灵活的图像重构,并保持用户身份。
图片生成#身份保护开源
9,300

Trajectorycrafter
TrajectoryCrafter 是一种先进的相机轨迹重定向工具,利用扩散模型技术,将单目视频中的相机运动重新设计,提升视频的表现力和视觉吸引力。
视频编辑#相机轨迹开源
852

Inception Labs
国外精选
Inception Labs 是一家专注于开发扩散式大语言模型(dLLMs)的公司。
AI模型#语言模型
1,968

Project Starlight
Project Starlight 是 Topaz Labs 推出的一款 AI 视频增强模型,专为提升低分辨率和损坏视频的质量而设计。
视频编辑#高清修复
2,580

Mercury Coder
国外精选
Mercury Coder 是 Inception Labs 推出的首款商用级扩散大语言模型(dLLM),专为代码生成优化。
代码助手#代码生成
2,604

Videograin
VideoGrain 是一种基于扩散模型的视频编辑技术,通过调节时空注意力机制实现多粒度视频编辑。
视频编辑#扩散模型开源
612

Makeanything
MakeAnything 是一个基于扩散变换器的模型,专注于多领域程序化序列生成。
AI设计工具#多领域生成开源
708

Pippo
Pippo 是由 Meta Reality Labs 和多所高校合作开发的生成模型,能够从单张普通照片生成高分辨率的多人视角视频。
视频生成#多视角视频开源
2,244

On Device Sora
On-device Sora 是一个开源项目,旨在通过线性比例跳跃(LPL)、时间维度标记合并(TDTM)和动态加载并发推理(CI-DL)等技术,实现在移动设备(如 iPhone 15 Pro)上高效的视频生成。
视频生成#视频生成开源
528

Diffsplat
DiffSplat 是一种创新的 3D 生成技术,能够从文本提示和单视图图像快速生成 3D 高斯点云。
3D建模#高斯点云开源
624

Go With The Flow
Go with the Flow 是一种创新的视频生成技术,通过使用扭曲噪声代替传统的高斯噪声,实现了对视频扩散模型运动模式的高效控制。
视频生成#运动控制开源
1,020

Tokenverse
TokenVerse 是一种创新的多概念个性化方法,它利用预训练的文本到图像扩散模型,能够从单张图像中解耦复杂的视觉元素和属性,并实现无缝的概念组合生成。
图片生成#个性化开源
816

X Dyna
X-Dyna是一种创新的零样本人类图像动画生成技术,通过将驱动视频中的面部表情和身体动作迁移到单张人类图像上,生成逼真且富有表现力的动态效果。
视频生成#零样本学习开源
492

Hunyuan3d 2.0
中文精选
Hunyuan3D 2.0 是腾讯推出的一种先进大规模 3D 合成系统,专注于生成高分辨率纹理化的 3D 资产。
3D建模#纹理生成开源
6,420

Diffusion As Shader
Diffusion as Shader (DaS) 是一种创新的视频生成控制模型,旨在通过3D感知的扩散过程实现对视频生成的多样化控制。
视频生成#3D感知开源
768

Creatilayout
CreatiLayout是一种创新的布局到图像生成技术,利用孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer)来实现高质量和细粒度可控的图像生成。
AI设计工具#多模态开源
972

Vmix
VMix是一种用于提升文本到图像扩散模型美学质量的技术,通过创新的条件控制方法——价值混合交叉注意力,系统性地增强图像的美学表现。
图片生成#扩散模型开源
516

Diffsensei
DiffSensei是一个结合了多模态大型语言模型(LLMs)和扩散模型的定制化漫画生成模型。
AI设计工具#多模态开源
2,388

Dynamiccontrol
DynamicControl是一个用于提升文本到图像扩散模型控制力的框架。
AI模型#扩散模型开源
360

Invsr
InvSR是一种基于扩散反转的图像超分辨率技术,利用大型预训练扩散模型中丰富的图像先验来提高超分辨率性能。
图片增强#扩散模型开源
792

Colorflow
ColorFlow是一个为图像序列着色而设计的模型,特别注重在着色过程中保留角色和对象的身份信息。
图片编辑#身份保留开源
504

Leffa
Leffa是一个用于可控人物图像生成的统一框架,它能够精确控制人物的外观(例如虚拟试穿)和姿态(例如姿态转移)。
AI设计工具#虚拟试穿开源
1,848

Comfyui HelloMeme
HelloMeme是一个集成了空间编织注意力(Spatial Knitting Attentions)的扩散模型,用于嵌入高级别和细节丰富的条件。
视频生成#视频生成开源
1,404

Color Diffusion
Color-diffusion是一个基于扩散模型的图像着色项目,它使用LAB颜色空间对黑白图片进行上色。
图片编辑#扩散模型开源
864

Anchorcrafter
AnchorCrafter是一个创新的扩散模型系统,旨在生成包含目标人物和定制化对象的2D视频,通过人-物交互(HOI)的集成,实现高视觉保真度和可控交互。
视频生成#人-物交互开源
9,276

Text To Pose
text-to-pose是一个研究项目,旨在通过文本描述生成人物姿态,并利用这些姿态生成图像。
图片生成#姿态估计开源
684

Diffusiondrive
DiffusionDrive是一个用于实时端到端自动驾驶的截断扩散模型,它通过减少扩散去噪步骤来加快计算速度,同时保持高准确性和多样性。
AI模型#端到端开源
660

Tryoffdiff
TryOffDiff是一种基于扩散模型的高保真服装重建技术,用于从穿着个体的单张照片中生成标准化的服装图像。
AI设计工具#服装重建开源
2,664

Diffusion Self Distillatio
Diffusion Self-Distillation是一种基于扩散模型的自蒸馏技术,用于零样本定制图像生成。
图片生成#零样本学习开源
1,248

CAT4D
CAT4D是一个利用多视图视频扩散模型从单目视频中生成4D场景的技术。
3D建模#多视图视频开源
840

Onediffusion
OneDiffusion是一个多功能、大规模的扩散模型,它能够无缝支持双向图像合成和理解,覆盖多种任务。
图片生成#图像合成开源
516

Joyvasa
JoyVASA是一种基于扩散模型的音频驱动人像动画技术,它通过分离动态面部表情和静态3D面部表示来生成面部动态和头部运动。
#音频驱动开源
936

Mikudance
MikuDance是一个基于扩散的动画生成管道,它结合了混合运动动态来动画化风格化的角色艺术。
#角色艺术开源
432

Fashion VDM
Fashion-VDM是一个视频扩散模型(VDM),用于生成虚拟试穿视频。
视频生成#视频生成开源
3,132

Seededit
SeedEdit是Doubao Team推出的大型扩散模型,用于根据任何文本提示修订图像。
图片编辑#扩散模型
8,400

Instantir
InstantIR是一种基于扩散模型的盲图像恢复方法,能够在测试时处理未知退化问题,提高模型的泛化能力。
图片编辑#盲图像恢复开源
1,416

Promptfix
PromptFix是一个综合框架,能够使扩散模型遵循人类指令执行各种图像处理任务。
图片编辑#扩散模型
912

Mardini
MarDini是Meta AI Research推出的一款视频扩散模型,它将掩码自回归(MAR)的优势整合到统一的扩散模型(DM)框架中。
视频生成#自回归开源
636
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k