Emilia
Emilia数据集面向需要进行大规模语音生成研究的学者和研究人员,特别是那些专注于多语种语音合成和语音识别技术的专业人士。
总访问量: 29,742,941
占比最多地区: US(17.94%)
2,400
简介
Emilia是一个开源的多语种野外语音数据集,专为大规模语音生成研究设计。它包含超过101,000小时的六种语言高质量语音数据和相应的文本转录,覆盖了各种说话风格和内容类型,如脱口秀、访谈、辩论、体育评论和有声书。
截图
产品特色
提供超过101,000小时的六种语言高质量语音数据
包含中文、英文、日文、韩文、德文和法文的语音和文本转录
源自互联网上多样化的视频平台和播客,内容类型丰富
支持使用Emilia-Pipe开源预处理管道进行数据预处理
允许研究者下载原始音频文件并重建数据集
Emilia-Pipe支持自定义语音数据的预处理,以满足特定研究需求
使用教程
1. 访问Emilia数据集页面并同意使用条款
2. 下载所需的原始音频文件
3. 使用Emilia-Pipe预处理管道对数据进行预处理
4. 根据研究需求重建数据集
5. 利用预处理后的数据进行语音生成或其他相关研究
6. 在研究成果中引用Emilia数据集和Emilia-Pipe
流量来源
直接访问48.39%外链引荐35.85%邮件0.03%
自然搜索12.76%社交媒体2.96%展示广告0.02%
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图
同类开源产品
Tabled
Tabled是一个用于检测和提取表格的Python库,它使用surya来识别PDF中的表格,识别行列,并能够将单元格格式化为Markdown、CSV或HTML。
AI数据挖掘#PDF处理
Datamonkey
DataMonkey是一个创新的数据可视化平台,它允许用户通过聊天的方式调用公共数据集,实现Map式的数据分析和展示。
AI数据挖掘#Map
Knowledge Table
Knowledge Table 是一个开源工具包,旨在简化从非结构化文档中提取和探索结构化数据的过程。
AI数据挖掘#数据提取
Parseflow
Parseflow是一个数据自动化平台,专注于通过先进的OCR和AI技术实现文档数据的自动提取和结构化。
AI数据挖掘#数据提取
Sheetbot AI
优质新品
SheetBot AI是一个利用人工智能技术,为用户提供数据分析、可视化和数据转换的一体化平台。
AI数据挖掘#AI
Kuration AI
Kuration AI是一个利用人工智能技术帮助用户进行B2B研究的工具,它通过智能筛选和数据丰富化,帮助用户快速从大量信息中提炼出有价值的商业线索。
AI数据挖掘#数据丰富化
Calcgen AI
优质新品
CalcGen AI是一个基于人工智能的平台,它允许用户通过简单的提示生成定制的交互式数据可视化。
AI数据挖掘#人工智能
Handinger
Handinger是一个提供数据提取服务的网站,它允许用户通过HTTP端点轻松提取网页内容,包括Markdown、截图、元数据和HTML等格式。
AI数据挖掘#API服务
Chunkr
Chunkr是一个开源的数据摄取API服务,专注于文档布局分析、OCR和分块处理,将文档转换成适合RAG和LLM的数据格式。
AI数据挖掘#文档处理
替代品
Tabled
Tabled是一个用于检测和提取表格的Python库,它使用surya来识别PDF中的表格,识别行列,并能够将单元格格式化为Markdown、CSV或HTML。
AI数据挖掘#PDF处理
Knowledge Table
Knowledge Table 是一个开源工具包,旨在简化从非结构化文档中提取和探索结构化数据的过程。
AI数据挖掘#数据提取
Reverb
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。
AI语音识别#说话人分割
Whisper Large V3 Turbo
优质新品
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。
AI语音识别#语音翻译
Omnisensevoice
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
AI语音识别#时间戳
Docai
docai 是一个利用人工智能技术从非结构化文档中提取结构化数据的模型。
AI数据挖掘#信息提取
Crisperwhisper
CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。
AI语音识别#逐字转录
Seed ASR
优质新品
Seed-ASR是由字节跳动公司开发的基于大型语言模型(Large Language Model, LLM)的语音识别模型。
AI语音识别#大型语言模型
Data Juicer
Data-Juicer 是一个一站式的多模态数据处理系统,旨在为大型语言模型(LLMs)提供更高质量、更丰富、更易消化的数据。
AI数据挖掘#data-science