Streamvoice : 实时零唇语音转换的流式上下文感知语言建模

Streamvoice

AI语音合成 AI语音克隆 #语音转换 #上下文感知 #实时处理 #零唇普通产品开源

简介 :

StreamVoice是一种基于语言模型的零唇语音转换模型，可实现实时转换，无需完整的源语音。它采用全因果上下文感知语言模型，结合时间独立的声学预测器，能够在每个时间步骤交替处理语义和声学特征，从而消除对完整源语音的依赖。为了增强在流式处理中可能出现的上下文不完整而导致的性能下降，StreamVoice通过两种策略增强了语言模型的上下文感知性：1）教师引导的上下文预见，在训练过程中利用教师模型总结当前和未来的语义上下文，引导模型对缺失上下文进行预测；2）语义屏蔽策略，促进从先前受损的语义和声学输入进行声学预测，增强上下文学习能力。值得注意的是，StreamVoice是第一个基于语言模型的流式零唇语音转换模型，无需任何未来预测。实验结果表明，StreamVoice具有流式转换能力，同时保持与非流式语音转换系统相媲美的零唇性能。

需求人群 :

StreamVoice可用于音乐制作、语音合成、语音转换等领域。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 89.4K

使用场景

在音乐制作中，使用StreamVoice将歌手的声音转换为不同风格的歌手

在语音合成中，使用StreamVoice将文字转换为不同说话风格的语音

在语音转换中，使用StreamVoice将演讲者的语音转换为不同的说话风格

产品特色

实时零唇语音转换

流式处理