Zonos V0.1 Hybrid : Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型，能够提供高质量的语音合成服务。

Zonos V0.1 Hybrid

文本转声音语音克隆 #文本转语音 #语音合成 #多语言 #语音克隆 #情绪控制普通产品开源

简介 :

Zonos-v0.1-hybrid 是由 Zyphra 开发的一款开源文本转语音模型，它能够根据文本提示生成高度自然的语音。该模型经过大量英语语音数据训练，采用 eSpeak 进行文本归一化和音素化，再通过变换器或混合骨干网络预测 DAC 令牌。它支持多种语言，包括英语、日语、中文、法语和德语，并且可以对生成语音的语速、音调、音频质量和情绪等进行精细控制。此外，它还具备零样本语音克隆功能，仅需 5 到 30 秒的语音样本即可实现高保真语音克隆。该模型在 RTX 4090 上的实时因子约为 2 倍，运行速度较快。它还配备了易于使用的 gradio 界面，并且可以通过 Docker 文件简单安装和部署。目前，该模型在 Hugging Face 上提供，用户可以免费使用，但需要自行部署。

需求人群 :

该产品适用于需要高质量语音合成的个人和企业，例如语音助手开发、有声读物制作、语音播报等领域。它可以帮助用户快速生成自然的语音，提高工作效率，同时支持多种语言和情绪控制，满足不同场景下的需求。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 78.7K

使用场景

开发语音助手：利用该模型为智能设备生成自然的语音交互，提升用户体验。

制作有声读物：将文本内容转换为高质量的语音，方便用户收听。

语音播报：为新闻、广播等生成自然的语音播报，提高信息传播效率。

产品特色

零样本语音克隆：输入文本和 10-30 秒的说话者样本，即可生成高质量的语音。

音频前缀输入：添加文本和音频前缀，可实现更丰富的说话者匹配。

多语言支持：支持英语、日语、中文、法语和德语。

音频质量和情绪控制：可精细控制语速、音调、音频质量和情绪等。

快速运行：在 RTX 4090 上的实时因子约为 2 倍。

WebUI gradio 界面：配备易于使用的 gradio 界面。

简单安装和部署：可通过 Docker 文件简单安装和部署。

使用教程

1. 克隆 Zonos 仓库：git clone git@github.com:Zyphra/Zonos.git

2. 进入仓库目录：cd Zonos

3. 使用 Docker 安装：docker compose up（对于 gradio 界面）或 docker build -t Zonos . && docker run -it --gpus=all --net=host -v /path/to/Zonos:/Zonos -t Zonos（对于开发）

4. 运行示例脚本：python3 sample.py，生成 sample.wav 文件

5. 在 Python 中编程使用：导入相关模块，加载模型，生成语音并保存为音频文件