# 语音合成

Clonegen
CloneGen是一款利用先进的人工智能技术实现声音克隆和文字转语音的应用。
语音克隆#人工智能
48

Easevoice Trainer
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。
开发与工具#机器学习开源
1,116

Megatts 3
MegaTTS 3 是由字节跳动开发的一款基于 PyTorch 的高效语音合成模型,具有超高质量的语音克隆能力。
语音克隆#深度学习开源
1,656

Openai.fm
OpenAI.fm 是一个互动演示平台,允许开发者体验 OpenAI API 中的最新文本转语音模型gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。
API服务#开发者工具
5,352

Orpheus TTS
Orpheus TTS 是一个基于 Llama-3b 模型的开源文本转语音系统,旨在提供更加自然的人类语音合成。
文本转声音#开源开源
2,712

CSM 1B
CSM 1B 是一个基于 Llama 架构的语音生成模型,能够从文本和音频输入中生成 RVQ 音频代码。
语音生成#文本到语音开源
2,568

Sesame CSM
优质新品
CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。
语音合成#人工智能开源
1,800

Sesame AI
Sesame AI 代表了下一代语音合成技术,通过结合先进的人工智能技术和自然语言处理,能够生成极其逼真的语音,具备真实的情感表达和自然的对话流程。
语音克隆#人工智能
2,196

Spark TTS
Spark-TTS 是一种基于大语言模型的高效文本到语音合成模型,具有单流解耦语音令牌的特性。
文本转声音#大语言模型开源
3,168

Llasa
Llasa是一个基于Llama框架的文本到语音(TTS)基础模型,专为大规模语音合成任务设计。
文本转声音#人工智能开源
900

Octave TTS
国外精选
Octave TTS 是由 Hume AI 开发的下一代语音合成模型,它不仅能够将文本转换为语音,还能理解文本的语义和情感,从而生成富有表现力的语音输出。
文本转声音#人工智能
1,824

Indextts
IndexTTS 是一种基于 GPT 风格的文本到语音(TTS)模型,主要基于 XTTS 和 Tortoise 进行开发。
文本转声音#人工智能开源
1,812

星声AI
中文精选
星声AI是一款专注于生成AI播客的工具。
音频生成#播客
3,000

AI ContentCraft
AI ContentCraft 是一个强大的内容创作平台,旨在帮助创作者快速生成故事、播客脚本和多媒体内容。
写作助手#内容创作开源
2,148

Zonos V0.1 Hybrid
Zonos-v0.1-hybrid 是由 Zyphra 开发的一款开源文本转语音模型,它能够根据文本提示生成高度自然的语音。
文本转声音#语音合成开源
1,380

Llasa Training
LLaSA_training 是一个基于 LLaMA 的语音合成训练项目,旨在通过优化训练时间和推理时间的计算资源,提升语音合成模型的效率和性能。
模型训练与部署#深度学习开源
780

Llasa 1B
Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。
文本转声音#语音合成开源
1,596

Llasa 3B
Llasa-3B 是一个强大的文本到语音(TTS)模型,基于 LLaMA 架构开发,专注于中英文语音合成。
文本转声音#语音合成开源
3,144

Hailuo AI Audio
Hailuo AI Audio利用先进的语音合成技术,将文本转换为自然流畅的语音。
文本转声音#音频制作
1,656

Kokoro Onnx
kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。
文本转声音#语音合成开源
1,596

Audiblez
Audiblez是一个利用Kokoro高质量语音合成技术,将普通电子书(.epub格式)转换为.m4b格式有声书的工具。
文本转声音#有声书开源
2,112

Kokoro 82M
Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音(TTS)模型。
文本转声音#语音合成开源
3,480

Synthesys
Synthesys是一个AI内容生成平台,提供AI视频、AI语音和AI图像生成服务。
视频生成#AI语音
1,536

Voxdazz
Voxdazz是一个利用人工智能技术模仿名人声音的在线平台。
语音克隆#语音合成
1,800

Elevenlabs Flash
国外精选
Flash是ElevenLabs最新推出的文本转语音(Text-to-Speech, TTS)模型,它以75毫秒加上应用和网络延迟的速度生成语音,是低延迟、会话型语音代理的首选模型。
文本转声音#TTS
1,128

Gemini 2.0 Flash Experimental
国外精选
Gemini 2.0 Flash Experimental是Google DeepMind开发的最新AI模型,旨在提供低延迟和增强性能的智能代理体验。
AI模型#机器学习
1,680

Cosyvoice 2
CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语言模型(LMs)和流匹配,实现了高自然度、内容一致性和说话人相似性的语音合成。
语音克隆#流媒体开源
2,076

Cosyvoice语音生成大模型2.0 0.5B
CosyVoice语音生成大模型2.0-0.5B是一个高性能的语音合成模型,支持零样本、跨语言的语音合成,能够根据文本内容直接生成相应的语音输出。
文本转声音#人工智能
3,084

Gaussianspeech
GaussianSpeech是一种新颖的方法,它能够从语音信号中合成高保真度的动画序列,创建逼真、个性化的3D人头化身。
视频生成#语音合成开源
444

Outetts 0.2 500M
OuteTTS-0.2-500M是基于Qwen-2.5-0.5B构建的文本到语音合成模型,它在更大的数据集上进行了训练,实现了在准确性、自然度、词汇量、声音克隆能力以及多语言支持方面的显著提升。
#语音合成开源
3,252

小视频宝
小视频宝(ClipTurbo)是一个AI驱动的视频生成工具,旨在帮助用户轻松创建高质量的营销视频。
视频生成#营销视频开源
2,892

Outetts
OuteTTS是一个使用纯语言建模方法生成语音的实验性文本到语音模型。
文本转声音#语音合成开源
2,544

Outetts 0.1 350M
OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术,它不需要外部适配器或复杂架构,通过精心设计的提示和音频标记实现高质量的语音合成。
文本转声音#语音合成
1,548

Fish Speech
Fish Speech是一款专注于语音合成的产品,它通过使用先进的深度学习技术,能够将文本转换为自然流畅的语音。
文本转声音#深度学习
3,276

Minimates
MiniMates是一款轻量级的图片数字人驱动算法,能够在普通电脑上实时运行,支持语音驱动和表情驱动两种模式。
数字人#表情驱动开源
1,308

Soundstorm
SoundStorm是由Google Research开发的一种音频生成技术,它通过并行生成音频令牌来大幅减少音频合成的时间。
音频生成#并行处理
1,008

Maskgct TTS Demo
MaskGCT TTS Demo 是一个基于MaskGCT模型的文本到语音(TTS)演示,由Hugging Face平台上的amphion提供。
文本转声音#深度学习开源
4,824

GLM 4 Voice
GLM-4-Voice是由清华大学团队开发的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话。
语音识别#语音合成开源
1,032

Maskgct
MaskGCT是一个创新的零样本文本到语音转换(TTS)模型,它通过消除显式对齐信息和音素级持续时间预测的需求,解决了自回归和非自回归系统中存在的问题。
文本转声音#零样本学习开源
1,212

F5 TTS
优质新品
F5-TTS是由SWivid团队开发的一个文本到语音合成(TTS)模型,它利用深度学习技术将文本转换为自然流畅、忠实于原文的语音输出。
AI文本转语音#深度学习开源
4,212
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k