Lookoncetohear
Lookoncetohear
该产品适合需要在嘈杂环境中进行语音识别和提取的研究人员和开发者。例如,它可以帮助听力障碍者在嘈杂环境中更好地理解对话,或者在多声源环境中进行语音分析和处理。
总访问量: 474,564,576
占比最多地区: US(19.34%)
2,244
简介
LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取,为用户提供了一种新颖的交互方式。
截图
产品特色
用户通过看向目标说话者几秒钟来选择想要听到的声音
使用 Scaper 工具包合成生成音频混合
提供自包含的数据集和训练用的 .jams 规范文件
支持实时语音提取和目标语音听力模型的评估
提供了模型的检查点,方便用户进行训练和评估
适用于嘈杂环境下的语音识别和提取
使用教程
下载并解压提供的 .zip 文件到 data/ 目录
运行命令以开始训练过程
使用 Scaper 的 generate_from_jams 函数在 .jams 规范文件上生成音频混合
下载并加载目标语音听力模型的检查点进行评估
根据需要调整模型参数以优化性能
在实际应用中,用户只需看向目标说话者即可开始语音提取
流量来源
直接访问51.61%外链引荐33.46%邮件0.04%
自然搜索12.58%社交媒体2.19%展示广告0.11%
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图
同类开源产品
Podlm Public
podlm-public是一个利用AI技术将URL内容转换成播客并推送到小宇宙平台的项目。
AI音频编辑#自动化转换
Podcastfy
优质新品
Podcastfy是一个开源的Python包,它使用生成式人工智能技术,将网页内容、PDF文件和文本转化为引人入胜的多语言音频对话。
AI音频编辑#huggingface-spaces
Reverb
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。
AI语音识别#说话人分割
Whisper Large V3 Turbo
优质新品
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。
AI语音识别#语音翻译
Realtime API
国外精选
Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。
AI语音识别#低延迟
Multispecies Whale Detection
multispecies-whale-detection 是谷歌开发的一个开源项目,旨在通过神经网络检测和分类不同物种和地理区域的鲸鱼声音。
AI音频编辑#神经网络
Omnisensevoice
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
AI语音识别#时间戳
Pdf To Podcast
pdf-to-podcast是一个基于人工智能技术的生产力工具,能够将PDF文档转换成播客节目。
AI音频编辑#文本到语音
Deepgram Voice Agent API
优质新品
Deepgram Voice Agent API 是一个统一的语音到语音API,它允许人类和机器之间进行自然听起来的对话。
AI语音识别#语音合成
替代品
Podlm Public
podlm-public是一个利用AI技术将URL内容转换成播客并推送到小宇宙平台的项目。
AI音频编辑#自动化转换
Podcastfy
优质新品
Podcastfy是一个开源的Python包,它使用生成式人工智能技术,将网页内容、PDF文件和文本转化为引人入胜的多语言音频对话。
AI音频编辑#huggingface-spaces
Reverb
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。
AI语音识别#说话人分割
Whisper Large V3 Turbo
优质新品
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。
AI语音识别#语音翻译
Multispecies Whale Detection
multispecies-whale-detection 是谷歌开发的一个开源项目,旨在通过神经网络检测和分类不同物种和地理区域的鲸鱼声音。
AI音频编辑#神经网络
Omnisensevoice
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
AI语音识别#时间戳
Pdf To Podcast
pdf-to-podcast是一个基于人工智能技术的生产力工具,能够将PDF文档转换成播客节目。
AI音频编辑#文本到语音
Draw An Audio
Draw an Audio是一个创新的视频到音频合成技术,它通过多指令控制,能够根据视频内容生成高质量的同步音频。
AI音频编辑#视频处理
Crisperwhisper
CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。
AI语音识别#逐字转录