重磅公开!阿里语音识别模型端核心技术,让你“听”见未来
传统的声学模型,输入的是每帧语音信号提取的声学特征,每帧语音的时长通常为 10ms,对于每个输入的语音帧信号会有相对应的一个输出目标。最近有研究提出一种低帧率(Low Frame Rate,LFR)建模方案:通过将相邻时刻的语音帧进行绑定作为输入,去预测这些语音帧的目标输出得到的一个平均输出目标。具体实验中可以实现三帧(或更多帧)拼接而不损失模型的性能。 从而可以将输入和输出减少到原来的三分之一甚至更多,可以极大的提升语音识别系统服务时声学得分的计算以及解码的效率。我们结合 LFR 和以上提出的 DFSMN,构建了基于 LFR-DFSMN 的语音识别声学模型,经过多组实验我们最终确定了采用一个包含 10 层 cFSMN 层 +2 层 DNN 的 DFSMN 作为声学模型,输入输出则采用 LFR,将帧率降低到原来的三分之一。识别结果和去年我们上线的最好的 LCBLSTM 基线比较如下表所示。 通过结合 LFR 技术,我们可以获得三倍的识别加速。从上表中可以看到,在实际工业规模应用上,LFR-DFSMN 模型比 LFR-LCBLSTM 模型可以获得 20% 的错误率下降,展示了对大规模数据更好的建模特性。 NN-LM 语言模型 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |