# 文本到语音

Dia AI
国外精选
Dia 是一个由 Nari Labs 开发的文本到语音(TTS)模型,具有 1.6 亿参数,能够直接从文本生成高度逼真的对话。
文本转声音#AI开源
2,628

Megatts 3
MegaTTS 3 是由字节跳动开发的一款基于 PyTorch 的高效语音合成模型,具有超高质量的语音克隆能力。
语音克隆#深度学习开源
1,656

CSM 1B
CSM 1B 是一个基于 Llama 架构的语音生成模型,能够从文本和音频输入中生成 RVQ 音频代码。
语音生成#文本到语音开源
2,568

PDF To Podcast Blueprint By NVIDIA
NVIDIA的PDF to Podcast Blueprint是一种基于生成式AI的应用程序,能够将PDF文档(如培训资料、技术研究或文档)转换为个性化的音频内容。
文本转声音#文本到语音
444

Zonos
Zonos 是一个先进的文本到语音模型,支持多种语言,能够根据文本提示和说话者嵌入或音频前缀生成自然语音。
文本转声音#语音克隆开源
1,476

Llasa 3B
Llasa-3B 是一个强大的文本到语音(TTS)模型,基于 LLaMA 架构开发,专注于中英文语音合成。
文本转声音#语音合成开源
3,144

Kokoro 82M
Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音(TTS)模型。
文本转声音#语音合成开源
3,480

Text To Santa Videos By Gan.AI
Text to Santa Videos by Gan.AI是一个在线平台,允许用户创建个性化的圣诞老人视频,为亲人和朋友带去节日的问候。
视频生成#节日问候
444

Synthesys
Synthesys是一个AI内容生成平台,提供AI视频、AI语音和AI图像生成服务。
视频生成#AI语音
1,536

Voice Cursor
Voice Cursor是一个基于Gemini 2.0原生音频能力的实验性文本编辑器,它展示了如何将Gemini的新文本到语音API集成到文本编辑器中,以实现流畅、上下文的声音生成。
开发与工具#文本到语音开源
816

Paper To Podcast
Paper-to-Podcast是一个将学术论文转换成播客形式的工具,通过模拟三个人的讨论来让听众以更自然和人性化的方式理解论文内容。
文本转声音#播客开源
1,068

Auralis
Auralis是一个文本到语音(TTS)引擎,能够将文本快速转换为自然语音,支持语音克隆,并且处理速度极快,可以在几分钟内处理完整本小说。
文本转声音#语音克隆开源
1,860

Outetts 0.2 500M
OuteTTS-0.2-500M是基于Qwen-2.5-0.5B构建的文本到语音合成模型,它在更大的数据集上进行了训练,实现了在准确性、自然度、词汇量、声音克隆能力以及多语言支持方面的显著提升。
#语音合成开源
3,252

Outetts
OuteTTS是一个使用纯语言建模方法生成语音的实验性文本到语音模型。
文本转声音#语音合成开源
2,544

Outetts 0.1 350M
OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术,它不需要外部适配器或复杂架构,通过精心设计的提示和音频标记实现高质量的语音合成。
文本转声音#语音合成
1,548

Lightning
Lightning是由smallest.ai开发的最新文本到语音模型,以其超快速度和小巧的体积在多模态AI中突破了性能和尺寸的界限。
文本转声音#多语言支持
432

Fish Speech
Fish Speech是一款专注于语音合成的产品,它通过使用先进的深度学习技术,能够将文本转换为自然流畅的语音。
文本转声音#深度学习
3,276

Fish Agent V0.1 3B
Fish Agent V0.1 3B是一个开创性的语音转语音模型,能够以前所未有的精确度捕捉和生成环境音频信息。
文本转声音#文本到语音开源
624

Maskgct TTS Demo
MaskGCT TTS Demo 是一个基于MaskGCT模型的文本到语音(TTS)演示,由Hugging Face平台上的amphion提供。
文本转声音#深度学习开源
4,824

Maskgct
MaskGCT是一个创新的零样本文本到语音转换(TTS)模型,它通过消除显式对齐信息和音素级持续时间预测的需求,解决了自回归和非自回归系统中存在的问题。
文本转声音#零样本学习开源
1,212

Elevenlabs Voice Design
国外精选
ElevenLabs Voice Design是一个在线平台,允许用户通过简单的文本提示来设计和生成定制的声音。
语音克隆#AI音频
900

F5 TTS
优质新品
F5-TTS是由SWivid团队开发的一个文本到语音合成(TTS)模型,它利用深度学习技术将文本转换为自然流畅、忠实于原文的语音输出。
AI文本转语音#深度学习开源
4,212

Open NotebookLM
Open NotebookLM是一个利用开源语言模型和文本到语音模型的工具,它可以处理PDF内容,生成适合音频播客的自然对话,并将其输出为MP3文件。
AI文本转语音#播客制作开源
1,368

Pdf To Podcast
pdf-to-podcast是一个基于人工智能技术的生产力工具,能够将PDF文档转换成播客节目。
AI音频编辑#文本到语音开源
660

Pdf2audio
优质新品
PDF2Audio是一个利用OpenAI的GPT模型将PDF文档转换成音频内容的工具。
AI文本转语音#音频生成开源
1,764

VALL E 2
VALL-E 2 是微软亚洲研究院推出的一款语音合成模型,它通过重复感知采样和分组编码建模技术,大幅提升了语音合成的稳健性与自然度。
文本转声音#人工智能
1,128

Fish Speech V1.4
Fish Speech V1.4是一个领先的文本到语音(TTS)模型,它在多种语言的700,000小时音频数据上进行了训练。
AI文本转语音#多语言支持开源
720

Fish Audio
中文精选
Fish Audio是一个提供文本到语音转换服务的平台,利用生成式AI技术,用户可以将文本转换为自然流畅的语音。
AI文本转语音#声音克隆
8,904

Optispeech
OptiSpeech是一个高效、轻量级且快速的文本到语音模型,专为设备端文本到语音转换设计。
AI语音合成#深度学习开源
1,008

Openvoicechat
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。
聊天机器人#文本到语音
1,332

Tiktok Voice Generator
TikTok Voice Generator是一个基于最新TikTok文本到语音技术的工具,能够生成多种有趣且逼真的AI语音效果,如Jessie语音、C3PO语音、鬼脸杀手语音等。
语音克隆#文本到语音
1,176

Bailing TTS
Bailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列,专注于生成高质量的中文方言语音。
AI语音合成#方言开源
7,224

Aiavatarkit
AIAvatarKit是一个用于快速构建基于AI的会话头像的工具。
AI头像生成#会话头像开源
984

Fish Speech V1.2
优质新品
Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音(TTS)模型。
AI语音合成#多语言支持开源
2,352

Toucantts
优质新品
ToucanTTS是由德国斯图加特大学自然语言处理研究所开发的多语言且可控的文本到语音合成工具包。
AI文本转语音#语音合成开源
1,680

Seed TTS
优质新品
Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型,能够生成与人类语音难以区分的语音。
AI语音合成#文本到语音开源
118.44k

Chattts
ChatTTS是一个开源的文本到语音转换(TTS)模型,它允许用户将文本转换为语音。
AI语音合成#深度学习开源
60.11k

Audiowaveai
AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。
文本转声音#文本到语音
1,500

GPT SoVITS
GPT-SoVITS-WebUI是一个强大的零样本语音转换和文本到语音WebUI。
AI语音合成#文本到语音开源
296.87k

Openai TTS
OpenAI TTS提供文本到语音的API,基于他们的TTS模型。
AI文本转语音#音频生成
37.74k
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k