Lookoncetohear : 实时语音提取智能耳机交互系统

Lookoncetohear

Lookoncetohear

AI语音识别 AI音频编辑 #语音识别 #实时处理 #智能耳机 #交互系统普通产品开源

简介 :

LookOnceToHear 是一种创新的智能耳机交互系统，允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取，为用户提供了一种新颖的交互方式。

需求人群 :

该产品适合需要在嘈杂环境中进行语音识别和提取的研究人员和开发者。例如，它可以帮助听力障碍者在嘈杂环境中更好地理解对话，或者在多声源环境中进行语音分析和处理。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 96.3K

使用场景

在会议中，通过 LookOnceToHear 选择听取特定发言人的声音

在嘈杂的公共场所，帮助听力障碍者集中听取对话

在音频分析研究中，用于区分和提取多个声源

产品特色

用户通过看向目标说话者几秒钟来选择想要听到的声音

使用 Scaper 工具包合成生成音频混合

提供自包含的数据集和训练用的 .jams 规范文件

支持实时语音提取和目标语音听力模型的评估

提供了模型的检查点，方便用户进行训练和评估

适用于嘈杂环境下的语音识别和提取

使用教程

下载并解压提供的 .zip 文件到 data/ 目录

运行命令以开始训练过程

使用 Scaper 的 generate_from_jams 函数在 .jams 规范文件上生成音频混合

下载并加载目标语音听力模型的检查点进行评估

根据需要调整模型参数以优化性能

在实际应用中，用户只需看向目标说话者即可开始语音提取

精选AI产品推荐

Azure AI Studio 语音服务

Azure AI Studio是微软Azure提供的一套人工智能服务，其中包括语音服务。这些服务可能包括语音识别、语音合成、语音翻译等功能，帮助开发者在他们的应用程序中集成语音相关的智能功能。

AI语音识别人工智能

Whisper 是一个通用的语音识别模型。它经过大量多样化音频的训练，并且是一个多任务模型，可以进行多语言语音识别、语音翻译和语种识别。

AI语音识别语音翻译

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24