Sketch2sound : 通过时间变化信号和声音模仿生成可控音频的模型

Sketch2sound

音频生成 AI模型 #音频生成 #声音模仿 #文本到音频 #音乐创作 #声音设计普通产品商用

简介 :

Sketch2Sound是一个生成音频的模型，能够从一组可解释的时间变化控制信号（响度、亮度、音高）以及文本提示中创建高质量的声音。该模型能够在任何文本到音频的潜在扩散变换器（DiT）上实现，并且只需要40k步的微调和每个控制一个单独的线性层，使其比现有的方法如ControlNet更加轻量级。Sketch2Sound的主要优点包括从声音模仿中合成任意声音的能力，以及在保持输入文本提示和音频质量的同时，遵循输入控制的大致意图。这使得声音艺术家能够结合文本提示的语义灵活性和声音手势或声音模仿的表现力和精确度来创造声音。

需求人群 :

目标受众为声音艺术家、音乐制作人和音频工程师。Sketch2Sound适合他们，因为它提供了一种新的方式来创造和控制声音，结合了文本提示的灵活性和声音模仿的精确度，从而能够创造出更加丰富和个性化的声音效果。

总访问量： 671

本站浏览量： 74.0K

使用场景

案例一：音乐制作人使用Sketch2Sound根据‘森林环境’的文本提示和声音模仿生成环境音乐。

案例二：声音设计师利用Sketch2Sound根据‘赛车’的文本提示和声音模仿创建动态的赛车音效。

案例三：音频工程师通过Sketch2Sound合成‘低音鼓，小军鼓’的声音，根据音高区域自动放置小军鼓和低音鼓。

产品特色

- 从声音模仿中合成任意声音：Sketch2Sound能够根据声音模仿或参考声音形状合成任意声音。

- 可解释的时间变化控制信号：模型使用响度、亮度和音高作为控制信号，以生成音频。

- 文本提示支持：Sketch2Sound能够根据文本提示生成符合语义的声音。