Reverb
目标受众主要是语音识别和说话人分割领域的研究人员、开发者和企业用户。Reverb 提供了高质量的语音处理工具,适合需要进行语音分析和处理的场合,如会议记录、电话录音分析等。
总访问量: 474,564,576
占比最多地区: US(19.34%)
1,332
简介
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。它提供了详细的模型描述,并允许用户从 Hugging Face 下载模型。Reverb 旨在为开发者和研究人员提供高质量的语音识别和说话人分割工具,以支持各种语音处理任务。
截图
产品特色
基于 WeNet 框架的语音识别代码
基于 Pyannote 框架的说话人分割代码
提供长形式语音识别和说话人分割的WER和WDER结果
支持通过 Hugging Face Hub 下载模型
提供 Docker 镜像以简化部署
支持在 NVIDIA GPU 上运行以提高性能
提供详细的安装和使用说明
使用教程
1. 确保系统中已安装 Git Large File Storage (LFS)。
2. 使用 HUGGINGFACE_ACCESS_TOKEN 从 Hugging Face Hub 下载模型。
3. 克隆 Reverb 代码库到本地。
4. 设置虚拟环境并激活。
5. 在代码库根目录下,设置环境变量以包含 ASR 目录。
6. 使用 Docker 构建镜像(如果需要)。
7. 运行 Docker 容器(如果使用 Docker 部署)。
8. 按照 README.md 中的说明进行模型推理和评估。
流量来源
直接访问51.61%外链引荐33.46%邮件0.04%
自然搜索12.58%社交媒体2.19%展示广告0.11%
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图
同类开源产品
Finevoice
FineVoice是一个多功能的AI配音平台,它使用先进的人工智能技术,为用户提供逼真的个性化语音服务。
AI语音合成#文本转语音
Reverb
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。
AI语音识别#说话人分割
Whisper Large V3 Turbo
优质新品
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。
AI语音识别#语音翻译
Realtime API
国外精选
Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。
AI语音识别#低延迟
Llama 3.2 3b Voice
Llama 3.2 3b Voice 是基于Hugging Face平台的一款语音合成模型,能够将文本转换为自然流畅的语音。
AI语音合成#自然语言处理
Ebook2audiobookxtts
ebook2audiobookXTTS是一个利用Calibre和Coqui TTS技术将电子书转换为有声书的模型,支持章节和元数据的保留,并且可以选择使用自定义语音模型进行语音克隆,支持多种语言。
AI语音合成#linux
Omnisensevoice
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
AI语音识别#时间戳
Deepgram Voice Agent API
优质新品
Deepgram Voice Agent API 是一个统一的语音到语音API,它允许人类和机器之间进行自然听起来的对话。
AI语音识别#语音合成
Seed Vc
seed-vc 是一个基于 SEED-TTS 架构的声音转换模型,能够实现零样本的声音转换,即无需特定人的声音样本即可转换声音。
AI语音合成#零样本学习
替代品
Reverb
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。
AI语音识别#说话人分割
Whisper Large V3 Turbo
优质新品
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。
AI语音识别#语音翻译
Llama 3.2 3b Voice
Llama 3.2 3b Voice 是基于Hugging Face平台的一款语音合成模型,能够将文本转换为自然流畅的语音。
AI语音合成#自然语言处理
Ebook2audiobookxtts
ebook2audiobookXTTS是一个利用Calibre和Coqui TTS技术将电子书转换为有声书的模型,支持章节和元数据的保留,并且可以选择使用自定义语音模型进行语音克隆,支持多种语言。
AI语音合成#linux
Omnisensevoice
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
AI语音识别#时间戳
Seed Vc
seed-vc 是一个基于 SEED-TTS 架构的声音转换模型,能够实现零样本的声音转换,即无需特定人的声音样本即可转换声音。
AI语音合成#零样本学习
Optispeech
OptiSpeech是一个高效、轻量级且快速的文本到语音模型,专为设备端文本到语音转换设计。
AI语音合成#深度学习
Crisperwhisper
CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。
AI语音识别#逐字转录
Seed ASR
优质新品
Seed-ASR是由字节跳动公司开发的基于大型语言模型(Large Language Model, LLM)的语音识别模型。
AI语音识别#大型语言模型