# 扩散模型
扩散模型
Dream 7B
Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。
AI模型#大语言模型开源
2,928
Accvideo
AccVideo 是一种新颖的高效蒸馏方法,通过合成数据集加速视频扩散模型的推理速度。
视频生成#人工智能开源
2,652
Infiniteyou
InfiniteYou(InfU)是一个基于扩散变换器的强大框架,旨在实现灵活的图像重构,并保持用户身份。
图片生成#身份保护开源
9,300
Trajectorycrafter
TrajectoryCrafter 是一种先进的相机轨迹重定向工具,利用扩散模型技术,将单目视频中的相机运动重新设计,提升视频的表现力和视觉吸引力。
视频编辑#相机轨迹开源
852
Inception Labs
国外精选
Inception Labs 是一家专注于开发扩散式大语言模型(dLLMs)的公司。
AI模型#语言模型
1,968
Project Starlight
Project Starlight 是 Topaz Labs 推出的一款 AI 视频增强模型,专为提升低分辨率和损坏视频的质量而设计。
视频编辑#高清修复
2,580
Mercury Coder
国外精选
Mercury Coder 是 Inception Labs 推出的首款商用级扩散大语言模型(dLLM),专为代码生成优化。
代码助手#代码生成
2,604
Videograin
VideoGrain 是一种基于扩散模型的视频编辑技术,通过调节时空注意力机制实现多粒度视频编辑。
视频编辑#扩散模型开源
612
Makeanything
MakeAnything 是一个基于扩散变换器的模型,专注于多领域程序化序列生成。
AI设计工具#多领域生成开源
708
Pippo
Pippo 是由 Meta Reality Labs 和多所高校合作开发的生成模型,能够从单张普通照片生成高分辨率的多人视角视频。
视频生成#多视角视频开源
2,244
On Device Sora
On-device Sora 是一个开源项目,旨在通过线性比例跳跃(LPL)、时间维度标记合并(TDTM)和动态加载并发推理(CI-DL)等技术,实现在移动设备(如 iPhone 15 Pro)上高效的视频生成。
视频生成#视频生成开源
528
Diffsplat
DiffSplat 是一种创新的 3D 生成技术,能够从文本提示和单视图图像快速生成 3D 高斯点云。
3D建模#高斯点云开源
624
Go With The Flow
Go with the Flow 是一种创新的视频生成技术,通过使用扭曲噪声代替传统的高斯噪声,实现了对视频扩散模型运动模式的高效控制。
视频生成#运动控制开源
1,020
Tokenverse
TokenVerse 是一种创新的多概念个性化方法,它利用预训练的文本到图像扩散模型,能够从单张图像中解耦复杂的视觉元素和属性,并实现无缝的概念组合生成。
图片生成#个性化开源
816
X Dyna
X-Dyna是一种创新的零样本人类图像动画生成技术,通过将驱动视频中的面部表情和身体动作迁移到单张人类图像上,生成逼真且富有表现力的动态效果。
视频生成#零样本学习开源
492
Hunyuan3d 2.0
中文精选
Hunyuan3D 2.0 是腾讯推出的一种先进大规模 3D 合成系统,专注于生成高分辨率纹理化的 3D 资产。
3D建模#纹理生成开源
6,420
Diffusion As Shader
Diffusion as Shader (DaS) 是一种创新的视频生成控制模型,旨在通过3D感知的扩散过程实现对视频生成的多样化控制。
视频生成#3D感知开源
768
Creatilayout
CreatiLayout是一种创新的布局到图像生成技术,利用孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer)来实现高质量和细粒度可控的图像生成。
AI设计工具#多模态开源
972
Vmix
VMix是一种用于提升文本到图像扩散模型美学质量的技术,通过创新的条件控制方法——价值混合交叉注意力,系统性地增强图像的美学表现。
图片生成#扩散模型开源
516
Diffsensei
DiffSensei是一个结合了多模态大型语言模型(LLMs)和扩散模型的定制化漫画生成模型。
AI设计工具#多模态开源
2,388
Dynamiccontrol
DynamicControl是一个用于提升文本到图像扩散模型控制力的框架。
AI模型#扩散模型开源
360
Invsr
InvSR是一种基于扩散反转的图像超分辨率技术,利用大型预训练扩散模型中丰富的图像先验来提高超分辨率性能。
图片增强#扩散模型开源
792
Colorflow
ColorFlow是一个为图像序列着色而设计的模型,特别注重在着色过程中保留角色和对象的身份信息。
图片编辑#身份保留开源
504
Leffa
Leffa是一个用于可控人物图像生成的统一框架,它能够精确控制人物的外观(例如虚拟试穿)和姿态(例如姿态转移)。
AI设计工具#虚拟试穿开源
1,848
Comfyui HelloMeme
HelloMeme是一个集成了空间编织注意力(Spatial Knitting Attentions)的扩散模型,用于嵌入高级别和细节丰富的条件。
视频生成#视频生成开源
1,404
Color Diffusion
Color-diffusion是一个基于扩散模型的图像着色项目,它使用LAB颜色空间对黑白图片进行上色。
图片编辑#扩散模型开源
864
Anchorcrafter
AnchorCrafter是一个创新的扩散模型系统,旨在生成包含目标人物和定制化对象的2D视频,通过人-物交互(HOI)的集成,实现高视觉保真度和可控交互。
视频生成#人-物交互开源
9,276
Text To Pose
text-to-pose是一个研究项目,旨在通过文本描述生成人物姿态,并利用这些姿态生成图像。
图片生成#姿态估计开源
684
Diffusiondrive
DiffusionDrive是一个用于实时端到端自动驾驶的截断扩散模型,它通过减少扩散去噪步骤来加快计算速度,同时保持高准确性和多样性。
AI模型#端到端开源
660
Tryoffdiff
TryOffDiff是一种基于扩散模型的高保真服装重建技术,用于从穿着个体的单张照片中生成标准化的服装图像。
AI设计工具#服装重建开源
2,664
Diffusion Self Distillatio
Diffusion Self-Distillation是一种基于扩散模型的自蒸馏技术,用于零样本定制图像生成。
图片生成#零样本学习开源
1,248
CAT4D
CAT4D是一个利用多视图视频扩散模型从单目视频中生成4D场景的技术。
3D建模#多视图视频开源
840
Onediffusion
OneDiffusion是一个多功能、大规模的扩散模型,它能够无缝支持双向图像合成和理解,覆盖多种任务。
图片生成#图像合成开源
516
Joyvasa
JoyVASA是一种基于扩散模型的音频驱动人像动画技术,它通过分离动态面部表情和静态3D面部表示来生成面部动态和头部运动。
#音频驱动开源
936
Mikudance
MikuDance是一个基于扩散的动画生成管道,它结合了混合运动动态来动画化风格化的角色艺术。
#角色艺术开源
432
Fashion VDM
Fashion-VDM是一个视频扩散模型(VDM),用于生成虚拟试穿视频。
视频生成#视频生成开源
3,132
Seededit
SeedEdit是Doubao Team推出的大型扩散模型,用于根据任何文本提示修订图像。
图片编辑#扩散模型
8,400
Instantir
InstantIR是一种基于扩散模型的盲图像恢复方法,能够在测试时处理未知退化问题,提高模型的泛化能力。
图片编辑#盲图像恢复开源
1,416
Promptfix
PromptFix是一个综合框架,能够使扩散模型遵循人类指令执行各种图像处理任务。
图片编辑#扩散模型
912
Mardini
MarDini是Meta AI Research推出的一款视频扩散模型,它将掩码自回归(MAR)的优势整合到统一的扩散模型(DM)框架中。
视频生成#自回归开源
636