耳听也不为实了,基于谷歌SV2TTS算法的开源项目在GITHUB登顶

     近日谷歌的论文SV2TTS(https://arxiv.org/pdf/1806.04558.pdf)在不论是在学术界还是在开源社区都引发热议,SV2TTS号称可以使用低分辨率的原音信息,在短时间内完成转换,生成新的声音。而且最近依据这个算法已经登陆到了github的趋势榜首位置(https://github.com/CorentinJ/Real-Time-Voice-Cloning)。

   

    SV2TTS论文摘要

    我们把原语音定义为v1,原语音内容定义为c1,原语音的speaker定义为s1,目标语音定义为v2,目标内容定义为c2。以便下文解释。

    SV2TTS定义了三层模型: 

    模型1:针对s1的声音特征的encoder网络,利用数千个人声样本,只从对于S1语音语调的嵌入工作,生成嵌入向量。至于什么是嵌入之前介绍很多了,具体可参考(https://blog.csdn.net/BEYONDMA/article/details/90114016)这里不加赘述了。

    模型2:基于Tacotron 2的合成网络,我们知道Tacotron 2是基于注意力的模型,依据c2与s1的相关特征,生成梅尔(mel)谱图;

    模型3:基于自回归波的语音生成网

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页
实付 9.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值