简介
Make-An-Audio 2是一种基于扩散模型的文本到音频生成技术,由浙江大学、字节跳动和香港中文大学的研究人员共同开发。该技术通过使用预训练的大型语言模型(LLMs)解析文本,优化了语义对齐和时间一致性,提高了生成音频的质量。它还设计了基于前馈Transformer的扩散去噪器,以改善变长音频生成的性能,并增强时间信息的提取。此外,通过使用LLMs将大量音频标签数据转换为音频文本数据集,解决了时间数据稀缺的问题。
截图

产品特色
使用预训练的大型语言模型(LLMs)解析文本,优化时间信息捕获
引入结构化文本编码器,辅助学习扩散去噪过程中的语义对齐
设计基于前馈Transformer的扩散去噪器,改善变长音频生成性能
利用LLMs增强和转换音频标签数据,缓解时间数据稀缺问题
在客观和主观指标上超越基线模型,显著提升时间信息理解、语义一致性和声音质量
使用教程
步骤1: 准备自然语言文本作为输入
步骤2: 使用Make-An-Audio 2的Text Encoder解析文本
步骤3: 结构化文本编码器辅助学习语义对齐
步骤4: 利用扩散去噪器生成音频
步骤5: 调整生成音频的长度和时间控制
步骤6: 根据需要修改结构化输入以精确控制时间
步骤7: 生成最终的音频输出
流量来源
直接访问 | 74.25% | 外链引荐 | 17.24% | 邮件 | 0.08% |
自然搜索 | 6.08% | 社交媒体 | 1.81% | 展示广告 | 0.30% |
最新流量情况
月访问量
407
平均访问时长
0.00
每次访问页数
1.02
跳出率
43.80%
总流量趋势图
地理流量分布情况
美国
60.64%
中国台湾
39.36%
地理流量分布全球图
同类开源产品

Remusic
优质新品
Remusic是一个由AI驱动的音乐创作平台,它允许用户通过简单的输入生成独特的音乐、歌词和封面。
AI音乐生成#歌词生成

Tomusic
优质新品
ToMusic是一个创新的在线平台,利用先进的AI技术将文本内容转换成音乐。
AI音乐生成#歌词转换

Openmusic
OpenMusic是一个基于人工智能的音乐创作模型,它利用深度学习技术,能够根据用户输入的指令或音乐片段生成新的音乐作品。
AI音乐生成#音乐创作

Covers
Covers 是 Suno 推出的一款音乐创作工具,它允许用户将任何声音,从简单语音备忘录到完整制作的音乐,转换成全新风格的音乐作品,同时保留原始的旋律。
AI音乐生成#风格转换

Songcreator
SongCreator是一个基于人工智能技术的歌词生成歌曲工具,它能够将文本歌词转化为完整的音乐作品。
AI音乐生成#音乐创作

Fluxmusic
FluxMusic是一个基于PyTorch实现的文本到音乐生成模型,它通过扩散式修正流变换器探索了一种简单的文本到音乐生成方法。
AI音乐生成#生成模型

Mureka
Mureka 是一个创新的平台,旨在帮助音乐创作者捕捉和放大灵感。
AI音乐生成#歌曲发布

Stable Audio ControlNet
Stable Audio ControlNet 是一个基于 Stable Audio Open 的音乐生成模型,通过 DiT ControlNet 进行微调,能够在具有 16GB VRAM 的 GPU 上使用,支持音频控制。
AI音乐生成#控制网络

SAAR
优质新品
SAAR是一个AI音乐助手,旨在通过直观的语音或文本对话帮助用户创作音乐。
AI音乐生成#音乐助手
替代品

Openmusic
OpenMusic是一个基于人工智能的音乐创作模型,它利用深度学习技术,能够根据用户输入的指令或音乐片段生成新的音乐作品。
AI音乐生成#音乐创作

Songcreator
SongCreator是一个基于人工智能技术的歌词生成歌曲工具,它能够将文本歌词转化为完整的音乐作品。
AI音乐生成#音乐创作

Fluxmusic
FluxMusic是一个基于PyTorch实现的文本到音乐生成模型,它通过扩散式修正流变换器探索了一种简单的文本到音乐生成方法。
AI音乐生成#生成模型

Stable Audio ControlNet
Stable Audio ControlNet 是一个基于 Stable Audio Open 的音乐生成模型,通过 DiT ControlNet 进行微调,能够在具有 16GB VRAM 的 GPU 上使用,支持音频控制。
AI音乐生成#控制网络

Musicongen
MusiConGen是一个基于Transformer的文本到音乐生成模型,它通过时间条件增强对节奏和和弦的控制。
AI音乐生成#Transformer模型

Stable Audio Open Demo
Stable Audio Open 是一个能够从文本提示生成长达47秒的立体声音频的技术。
AI音乐生成#文本到音频

Stable Audio Open 1.0
优质新品
Stable Audio Open 1.0是一个利用自编码器、基于T5的文本嵌入和基于变压器的扩散模型来生成长达47秒的立体声音频的AI模型。
AI音乐生成#音频处理

Comfyui StableAudioSampler
优质新品
ComfyUI-StableAudioSampler 是一款集成在 ComfyUI 节点中的音频采样器插件,它允许用户生成音频并输出原始字节和采样率,支持所有原始 Stable Audio Open 参数,并可以保存音频到文件。
AI音乐生成#音乐制作

Musicgpt
MusicGPT 是一款允许在任何平台上以高性能方式在本地运行最新音乐生成 AI 模型的应用程序。
AI音乐生成#人工智能
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k