<small id='Wa1kHrOfZ'></small> <noframes id='JMmbz'>

  • <tfoot id='jnaP3MkKIW'></tfoot>

      <legend id='h41aZJiWFR'><style id='8cJXAG6S'><dir id='lV62'><q id='k2BYrx'></q></dir></style></legend>
      <i id='TRSBz8cp3n'><tr id='3Cjfkq'><dt id='sX6KH4kg'><q id='rAIK'><span id='t0mWDkT'><b id='dYJwIWT'><form id='mtAHiaC2'><ins id='uEhPaUWC'></ins><ul id='9XbalzuqL'></ul><sub id='GMmrPi'></sub></form><legend id='RnPpK'></legend><bdo id='SETc'><pre id='SnxA8bc0z'><center id='pIuW'></center></pre></bdo></b><th id='PIgTEHLZG'></th></span></q></dt></tr></i><div id='Cg5lp'><tfoot id='ArlpDwPumd'></tfoot><dl id='xUqPhZ01e'><fieldset id='uxGMlH8'></fieldset></dl></div>

          <bdo id='c5VnBabo'></bdo><ul id='PM8CHrY'></ul>

          1. <li id='iAK5QhH'></li>
            登陆

            根据深度前馈序列回忆网络,如何将语音组成速度提高四倍?

            admin 2019-09-07 245人围观 ,发现0个评论

            简介: 咱们提出了一种根据深度前馈序列回忆网络的语音组成体系。该体系在到达与根据双向长短时回忆单元的语音组成体系共同的片面听感的一起,模型巨细只要后者的四分之一,且组成速度是后者的四倍,十分适合于对内存占用和核算功率十分灵敏的端上产品环境。

            小叽导读:咱们提出了一种根据深度前馈序列回忆网络的罗语音组成体系。该体系在到达与根据双向长短时回忆单元的语音组成体系共同的片面听感的一起,模型巨细只要后者的四分之一,且组根据深度前馈序列回忆网络,如何将语音组成速度提高四倍?成速度是后者的四倍,十分适合于对内存占用和核算功率十分灵敏的端上产品环境。

            作者:毕梦霄/Mengxiao Bi,卢恒/Heng Lu,张仕良/Shiliang Zhang,雷鸣/Ming Lei,鄢志杰/Zhijie Yan


            研讨布景

            语音组成体系首要分为两类,拼接组成体系和参数组成体系。其间参数组成体系在引进了神经网络作为模型之后,组成质量和天然度都获得了长足的前进。另一方面,物联网设备(例如智能音箱和智能电视)的很多遍及也对在设备上布置的参数组成体系提出了核算资根据深度前馈序列回忆网络,如何将语音组成速度提高四倍?源的约束和实时率的要求。本作业引进的深度前馈序列回忆网络能够在坚持组成质量的一起,有用下降核算量,进步组成速度。

            咱们运用根据双向长短时回忆单元(BLSTM)的核算参数语音组成体系作为基线体系。与现在干流的核算参数语音组成体系相似,咱们提出的根据深度前馈序列回忆网络(DFSMN)的核算参数语音组成体系也是由3个首要部分组成,声响组成器(v根据深度前馈序列回忆网络,如何将语音组成速度提高四倍?ocoder),前端模块和后端模块,如上图所示。咱们运用开源东西WORLD作为咱们的声响组成器,用来在模型练习时从原始语音波形中提取频谱信息、基频的对数、频带周期特征(BAP)和清浊音符号,也用来在语音组成时完结从声学参数到实践声响的转化。前端模块用来对输入的文本进行正则化和词法剖析,咱们把这些语言学特征编码后作为神经网络练习的输入。后端模块用来树立从输入的语言学特征到声学参数的映射,在咱们的体系中,咱们运用DFSMN作为后端模块。

            深度前馈序列回忆网络

            紧凑前馈序列回忆网络(cFSMN)作为规范的前馈序列回忆网络(FSMN)的改善版别,在网络结构中引进了低秩矩阵分化,这种改善简化了FSMN,减少了模型的参数量,并加快了模型的练习和猜测进程。

            上图给出了cFSMN的结构的图示。关于神经网络的每一个cFSMN层,核算进程可表明成以下过程①经过一个线性映射,把上一层的输出映射到一个低维向量②回忆模块履行核算,核算当时帧之前和之后的若干帧和当时帧的低维向量的逐维加权和③把该加权和再经过一个仿射改换和一个非线性函数,得到当时层的输出。三个过程可顺次表明成如下公式。

            与循环神经网络(RNNs,包含BLSTM)相似,经过调整回忆模块的阶数,cFSMN有才能捕捉序列的长程信息。另一方面,cFSMN能够直接经过反向传达算法(BP)进行练习,与有必要运用沿时刻反向传达算法(BPTT)进行练习的RNNs比较,练习cFSMN速度更快,且较不容易遭到梯度消失的影响。

            想看更多相关的问答内容:点击下根据深度前馈序列回忆网络,如何将语音组成速度提高四倍?方“了解更多”

            原文出处:阿里云大学开发者社区

            英文论文地址:https://arxiv.org/abs/1802.09194

            请关注微信公众号
            微信二维码
            不容错过
            Powered By Z-BlogPHP