CSM 1B : CSM 1B 是一个由 Sesame 开发的文本到语音生成模型，可生成高质量的音频。

CSM 1B

CSM 1B

语音生成 AI模型 #语音合成 #文本到语音 #多说话人 #开源模型普通产品开源

简介 :

CSM 1B 是一个基于 Llama 架构的语音生成模型，能够从文本和音频输入中生成 RVQ 音频代码。该模型主要应用于语音合成领域，具有高质量的语音生成能力。其优势在于能够处理多说话人的对话场景，并通过上下文信息生成自然流畅的语音。该模型开源，旨在为研究和教育目的提供支持，但明确禁止用于冒充、欺诈或非法活动。

需求人群 :

该模型适合需要高质量语音合成的研究人员、开发者以及教育工作者。它能够为语音交互应用、语音合成研究和教育场景提供技术支持。

总访问量： 25.3M

占比最多地区： US(17.94%)

本站浏览量： 104.6K

使用场景

在语音交互应用中，为虚拟助手生成自然语音

用于语音合成研究，探索高质量语音生成技术

在教育场景中，为语言学习生成语音示例

产品特色

支持从文本生成高质量语音

可处理多说话人的对话场景

通过上下文信息生成更自然的语音

开源模型，便于研究和教育使用

支持多种语言（但非英语效果可能不佳）

使用教程

1. 克隆模型仓库：`git clone git@github.com:SesameAILabs/csm.git`

2. 设置虚拟环境并安装依赖：`python3.10 -m venv .venv` 和 `pip install -r requirements.txt`

3. 下载模型文件：`hf_hub_download(repo_id="sesame/csm-1b", filename="ckpt.pt")`

4. 加载模型并生成语音：调用 `load_csm_1b` 和 `generate` 方法生成音频

5. 保存生成的音频：使用 `torchaudio.save` 保存音频文件

精选AI产品推荐

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

AI模型多模态

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AI模型图像生成

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24