扩散模型

# 扩散模型

Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。它在文本生成领域展现了优异的性能，特别是在复杂推理、长期规划和上下文连贯性等方面。该模型采用了先进的训练方法，具有强大的计划能力和灵活的推理能力，为各类 AI 应用提供了更为强大的支持。

AI模型大语言模型

AccVideo 是一种新颖的高效蒸馏方法，通过合成数据集加速视频扩散模型的推理速度。该模型能够在生成视频时实现 8.5 倍的速度提升，同时保持相似的性能。它使用预训练的视频扩散模型生成多条有效去噪轨迹，从而优化了数据的使用和生成过程。AccVideo 特别适用于需要高效视频生成的场景，如电影制作、游戏开发等，适合研究人员和开发者使用。

视频生成人工智能

InfiniteYou（InfU）是一个基于扩散变换器的强大框架，旨在实现灵活的图像重构，并保持用户身份。它通过引入身份特征并采用多阶段训练策略，显著提升了图像生成的质量和美学，同时改善了文本与图像的对齐。该技术对提高图像生成的相似性和美观性具有重要意义，适用于各种图像生成任务。

图片生成身份保护

Trajectorycrafter

TrajectoryCrafter 是一种先进的相机轨迹重定向工具，利用扩散模型技术，将单目视频中的相机运动重新设计，提升视频的表现力和视觉吸引力。该技术可广泛应用于影视制作和虚拟现实等领域，具备高效、便捷和创新的特点，旨在为用户提供更多创意自由和控制能力。

视频编辑相机轨迹

Inception Labs 是一家专注于开发扩散式大语言模型（dLLMs）的公司。其技术灵感来源于先进的图像和视频生成系统，如 Midjourney 和 Sora。通过扩散模型，Inception Labs 提供了比传统自回归模型快 5-10 倍的速度、更高的效率和更强的生成控制能力。其模型支持并行文本生成，能够纠正错误和幻觉，适合多模态任务，并且在推理和结构化数据生成方面表现出色。公司由斯坦福、UCLA 和康奈尔大学的研究人员和工程师组成，是扩散模型领域的先驱。

AI模型语言模型

Project Starlight

Project Starlight 是 Topaz Labs 推出的一款 AI 视频增强模型，专为提升低分辨率和损坏视频的质量而设计。它采用了扩散模型技术，能够实现视频的超分辨率、降噪、去模糊和锐化等功能，同时保持时间一致性，确保视频帧之间的流畅过渡。该技术是视频增强领域的重大突破，为视频修复和提升带来了前所未有的高质量效果。目前，Project Starlight 提供免费试用，并计划在未来支持 4K 导出，主要面向需要高质量视频修复和增强的用户和企业。

视频编辑高清修复

Mercury Coder 是 Inception Labs 推出的首款商用级扩散大语言模型（dLLM），专为代码生成优化。该模型采用扩散模型技术，通过‘粗到细’的生成方式，显著提升生成速度和质量。其速度比传统自回归语言模型快 5-10 倍，能够在 NVIDIA H100 硬件上达到每秒 1000 多个 token 的生成速度，同时保持高质量的代码生成能力。该技术的背景是当前自回归语言模型在生成速度和推理成本上的瓶颈，而 Mercury Coder 通过算法优化突破了这一限制，为企业级应用提供了更高效、低成本的解决方案。

代码助手代码生成

VideoGrain 是一种基于扩散模型的视频编辑技术，通过调节时空注意力机制实现多粒度视频编辑。该技术解决了传统方法中语义对齐和特征耦合的问题，能够对视频内容进行精细控制。其主要优点包括零样本编辑能力、高效的文本到区域控制以及特征分离能力。该技术适用于需要对视频进行复杂编辑的场景，如影视后期、广告制作等，能够显著提升编辑效率和质量。

视频编辑扩散模型

MakeAnything 是一个基于扩散变换器的模型，专注于多领域程序化序列生成。该技术通过结合先进的扩散模型和变换器架构，能够生成高质量的、逐步的创作序列，如绘画、雕塑、图标设计等。其主要优点在于能够处理多种领域的生成任务，并且可以通过少量样本快速适应新领域。该模型由新加坡国立大学 Show Lab 团队开发，目前以开源形式提供，旨在推动多领域生成技术的发展。

AI设计工具多领域生成

Pippo 是由 Meta Reality Labs 和多所高校合作开发的生成模型，能够从单张普通照片生成高分辨率的多人视角视频。该技术的核心优势在于无需额外输入（如参数化模型或相机参数），即可生成高质量的 1K 分辨率视频。它基于多视角扩散变换器架构，具有广泛的应用前景，如虚拟现实、影视制作等。Pippo 的代码已开源，但不包含预训练权重，用户需要自行训练模型。

视频生成多视角视频

On-device Sora 是一个开源项目，旨在通过线性比例跳跃（LPL）、时间维度标记合并（TDTM）和动态加载并发推理（CI-DL）等技术，实现在移动设备（如 iPhone 15 Pro）上高效的视频生成。该项目基于 Open-Sora 模型开发，能够根据文本输入生成高质量视频。其主要优点包括高效性、低功耗和对移动设备的优化。该技术适用于需要在移动设备上快速生成视频内容的场景，如短视频创作、广告制作等。项目目前开源，用户可以免费使用。

视频生成视频生成

DiffSplat 是一种创新的 3D 生成技术，能够从文本提示和单视图图像快速生成 3D 高斯点云。该技术通过利用大规模预训练的文本到图像扩散模型，实现了高效的 3D 内容生成。它解决了传统 3D 生成方法中数据集有限和无法有效利用 2D 预训练模型的问题，同时保持了 3D 一致性。DiffSplat 的主要优点包括高效的生成速度（1~2 秒内完成）、高质量的 3D 输出以及对多种输入条件的支持。该模型在学术研究和工业应用中具有广泛前景，尤其是在需要快速生成高质量 3D 模型的场景中。

3D建模高斯点云

Go With The Flow

Go with the Flow 是一种创新的视频生成技术，通过使用扭曲噪声代替传统的高斯噪声，实现了对视频扩散模型运动模式的高效控制。该技术无需对原始模型架构进行修改，即可在不增加计算成本的情况下，实现对视频中物体和相机运动的精确控制。其主要优点包括高效性、灵活性和可扩展性，能够广泛应用于图像到视频生成、文本到视频生成等多种场景。该技术由 Netflix Eyeline Studios 等机构的研究人员开发，具有较高的学术价值和商业应用潜力，目前开源免费提供给公众使用。

视频生成运动控制

TokenVerse 是一种创新的多概念个性化方法，它利用预训练的文本到图像扩散模型，能够从单张图像中解耦复杂的视觉元素和属性，并实现无缝的概念组合生成。这种方法突破了现有技术在概念类型或广度上的限制，支持多种概念，包括物体、配饰、材质、姿势和光照等。TokenVerse 的重要性在于其能够为图像生成领域带来更灵活、更个性化的解决方案，满足用户在不同场景下的多样化需求。目前，TokenVerse 的代码尚未公开，但其在个性化图像生成方面的潜力已经引起了广泛关注。

图片生成个性化

X-Dyna是一种创新的零样本人类图像动画生成技术，通过将驱动视频中的面部表情和身体动作迁移到单张人类图像上，生成逼真且富有表现力的动态效果。该技术基于扩散模型，通过Dynamics-Adapter模块，将参考外观上下文有效整合到扩散模型的空间注意力中，同时保留运动模块合成流畅复杂动态细节的能力。它不仅能够实现身体姿态控制，还能通过本地控制模块捕捉与身份无关的面部表情，实现精确的表情传递。X-Dyna在多种人类和场景视频的混合数据上进行训练，能够学习物理人体运动和自然场景动态，生成高度逼真和富有表现力的动画。

视频生成零样本学习

Hunyuan3D 2.0 是腾讯推出的一种先进大规模 3D 合成系统，专注于生成高分辨率纹理化的 3D 资产。该系统包括两个基础组件：大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint。它通过解耦形状和纹理生成的难题，为用户提供了灵活的 3D 资产创作平台。该系统在几何细节、条件对齐、纹理质量等方面超越了现有的开源和闭源模型，具有极高的实用性和创新性。目前，该模型的推理代码和预训练模型已开源，用户可以通过官网或 Hugging Face 空间快速体验。

3D建模纹理生成

Diffusion As Shader

Diffusion as Shader (DaS) 是一种创新的视频生成控制模型，旨在通过3D感知的扩散过程实现对视频生成的多样化控制。该模型利用3D跟踪视频作为控制输入，能够在统一的架构下支持多种视频控制任务，如网格到视频生成、相机控制、运动迁移和对象操作等。DaS的主要优势在于其3D感知能力，能够有效提升生成视频的时间一致性，并在短时间内通过少量数据微调即可展现出强大的控制能力。该模型由香港科技大学等多所高校的研究团队共同开发，旨在推动视频生成技术的发展，为影视制作、虚拟现实等领域提供更为灵活和高效的解决方案。

视频生成3D感知

CreatiLayout是一种创新的布局到图像生成技术，利用孪生多模态扩散变换器（Siamese Multimodal Diffusion Transformer）来实现高质量和细粒度可控的图像生成。该技术能够精确渲染复杂的属性，如颜色、纹理、形状、数量和文本，适用于需要精确布局和图像生成的应用场景。其主要优点包括高效的布局引导集成、强大的图像生成能力和大规模数据集的支持。CreatiLayout由复旦大学和字节跳动公司联合开发，旨在推动图像生成技术在创意设计领域的应用。

AI设计工具多模态

VMix是一种用于提升文本到图像扩散模型美学质量的技术，通过创新的条件控制方法——价值混合交叉注意力，系统性地增强图像的美学表现。VMix作为一个即插即用的美学适配器，能够在保持视觉概念通用性的同时提升生成图像的质量。VMix的关键洞见是通过设计一种优越的条件控制方法来增强现有扩散模型的美学表现，同时保持图像与文本的对齐。VMix足够灵活，可以应用于社区模型，以实现更好的视觉性能，无需重新训练。

图片生成扩散模型

DiffSensei是一个结合了多模态大型语言模型（LLMs）和扩散模型的定制化漫画生成模型。它能够根据用户提供的文本提示和角色图像，生成可控制的黑白漫画面板，并具有灵活的角色适应性。这项技术的重要性在于它将自然语言处理与图像生成相结合，为漫画创作和个性化内容生成提供了新的可能性。DiffSensei模型以其高质量的图像生成、多样化的应用场景以及对资源的高效利用而受到关注。目前，该模型在GitHub上公开，可以免费下载使用，但具体的使用可能需要一定的计算资源。

AI设计工具多模态

DynamicControl是一个用于提升文本到图像扩散模型控制力的框架。它通过动态组合多样的控制信号，支持自适应选择不同数量和类型的条件，以更可靠和详细地合成图像。该框架首先使用双循环控制器，利用预训练的条件生成模型和判别模型，为所有输入条件生成初始真实分数排序。然后，通过多模态大型语言模型（MLLM）构建高效条件评估器，优化条件排序。DynamicControl联合优化MLLM和扩散模型，利用MLLM的推理能力促进多条件文本到图像任务，最终排序的条件输入到并行多控制适配器，学习动态视觉条件的特征图并整合它们以调节ControlNet，增强对生成图像的控制。

AI模型扩散模型

InvSR是一种基于扩散反转的图像超分辨率技术，利用大型预训练扩散模型中丰富的图像先验来提高超分辨率性能。该技术通过部分噪声预测策略构建扩散模型的中间状态，作为起始采样点，并使用深度噪声预测器估计最优噪声图，从而在前向扩散过程中初始化采样，生成高分辨率结果。InvSR支持任意数量的采样步骤，从一到五步不等，即使仅使用单步采样，也展现出优于或媲美现有最先进方法的性能。

图片增强扩散模型

ColorFlow是一个为图像序列着色而设计的模型，特别注重在着色过程中保留角色和对象的身份信息。该模型利用上下文信息，能够根据参考图像池为黑白图像序列中的不同元素（如角色的头发和服装）准确生成颜色，并确保与参考图像的颜色一致性。ColorFlow通过三个阶段的扩散模型框架，提出了一种新颖的检索增强着色流程，无需每个身份的微调或显式身份嵌入提取，即可实现具有相关颜色参考的图像着色。ColorFlow的主要优点包括其在保留身份信息的同时，还能提供高质量的着色效果，这对于卡通或漫画系列的着色具有重要的市场价值。

图片编辑身份保留

Leffa是一个用于可控人物图像生成的统一框架，它能够精确控制人物的外观（例如虚拟试穿）和姿态（例如姿态转移）。该模型通过在训练期间引导目标查询关注参考图像中的相应区域，减少细节扭曲，同时保持高图像质量。Leffa的主要优点包括模型无关性，可以用于提升其他扩散模型的性能。

AI设计工具虚拟试穿

Comfyui HelloMeme

HelloMeme是一个集成了空间编织注意力（Spatial Knitting Attentions）的扩散模型，用于嵌入高级别和细节丰富的条件。该模型支持图像和视频的生成，具有改善生成视频与驱动视频之间表情一致性、减少VRAM使用、优化算法等优点。HelloMeme由HelloVision团队开发，属于HelloGroup Inc.，是一个前沿的图像和视频生成技术，具有重要的商业和教育价值。

视频生成视频生成

Color Diffusion

Color-diffusion是一个基于扩散模型的图像着色项目，它使用LAB颜色空间对黑白图片进行上色。该项目的主要优点在于能够利用已有的灰度信息（L通道），通过训练模型来预测颜色信息（A和B通道）。这种技术在图像处理领域具有重要意义，尤其是在老照片修复和艺术创作中。Color-diffusion作为一个开源项目，其背景信息显示，它是作者为了满足好奇心和体验从头开始训练扩散模型而快速构建的。项目目前是免费的，并且有很大的改进空间。

图片编辑扩散模型

AnchorCrafter是一个创新的扩散模型系统，旨在生成包含目标人物和定制化对象的2D视频，通过人-物交互（HOI）的集成，实现高视觉保真度和可控交互。该系统通过HOI-外观感知增强从任意多视角识别对象外观的能力，并分离人和物的外观；HOI-运动注入则通过克服对象轨迹条件和相互遮挡管理的挑战，实现复杂的人-物交互。此外，HOI区域重新加权损失作为训练目标，增强了对对象细节的学习。该技术在保持对象外观和形状意识的同时，也维持了人物外观和运动的一致性，对于在线商务、广告和消费者参与等领域具有重要意义。

视频生成人-物交互

text-to-pose是一个研究项目，旨在通过文本描述生成人物姿态，并利用这些姿态生成图像。该技术结合了自然语言处理和计算机视觉，通过改进扩散模型的控制和质量，实现了从文本到图像的生成。项目背景基于NeurIPS 2024 Workshop上发表的论文，具有创新性和前沿性。该技术的主要优点包括提高图像生成的准确性和可控性，以及在艺术创作和虚拟现实等领域的应用潜力。

图片生成姿态估计

DiffusionDrive是一个用于实时端到端自动驾驶的截断扩散模型，它通过减少扩散去噪步骤来加快计算速度，同时保持高准确性和多样性。该模型直接从人类示范中学习，无需复杂的预处理或后处理步骤，即可实现实时的自动驾驶决策。DiffusionDrive在NAVSIM基准测试中取得了88.1 PDMS的突破性成绩，并且能够在45 FPS的速度下运行。

AI模型端到端

TryOffDiff是一种基于扩散模型的高保真服装重建技术，用于从穿着个体的单张照片中生成标准化的服装图像。这项技术与传统的虚拟试穿不同，它旨在提取规范的服装图像，这在捕捉服装形状、纹理和复杂图案方面提出了独特的挑战。TryOffDiff通过使用Stable Diffusion和基于SigLIP的视觉条件来确保高保真度和细节保留。该技术在VITON-HD数据集上的实验表明，其方法优于基于姿态转移和虚拟试穿的基线方法，并且需要较少的预处理和后处理步骤。TryOffDiff不仅能够提升电子商务产品图像的质量，还能推进生成模型的评估，并激发未来在高保真重建方面的工作。

AI设计工具服装重建

精选AI产品推荐

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

开发平台应用开发

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

AI设计工具创意工具

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

AI模型图像处理

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

视频编辑视频处理

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

音频生成文本转语音

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AI模型图像生成

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24