【直播】搜狗研究员:基于LSTM-RNN的语音声学建模技术 | 学术青年分享会

摘要: 张弼弘,2017年4月毕业于西北工业大学并获得硕士学位。研究方向是语音识别声学建模,深度学习,机器学习。目前就职于搜狗。

10-29 16:19 首页 AI研习社


分享主题


Acoustic Modeling Based on LSTM-RNN in ASR


基于LSTM-RNN的语音声学建模技术



分享内容


LSTM-RNN可以对长时序列信息进行建模,广泛应用于语音识别声学模型建模中。此次主要介绍近期LSTM的一些研究进展包括LC-BLSTM,2D-LSTM等。其中LC-BLSTM采用了双向LSTM结构,并在训练和解码时加入了数帧的未来信息来控制延时,解决了普通双向LSTM无法用于实时语音识别的问题;而2D-LSTM在时间和频域两个维度上进行循环,同时保存时间轴与频域轴的序列信息,Google和微软都在大规模语音识别任务上验证了这类2D-LSTM结构的有效性。


以下相关论文可在观看分享会前先预读:


《Improving Latency-Controlled BLSTM Acoustic Models for Online Speech Recognition

论文地址:http://t.cn/R0015sz


《Modeling Time-Frequency Patterns with LSTM vs. Convolutional Architectures for LVCSR Tasks》

论文地址:http://t.cn/R0011cU


《LSTM Time and Frequency Recurrence for Automatic Speech Recognition》

论文地址:http://t.cn/R0O5cJn


《Exploring Multidimensional LSTMS for Large Vocabulary ASR》

论文地址:http://t.cn/R00BxQI


《Reducing the Computational Complexity of Two-Dimensional LSTMs》

论文地址:http://t.cn/R00d0xt



分享人简介


张弼弘,2017年4月毕业于西北工业大学并获得硕士学位。研究方向是语音识别声学建模,深度学习,机器学习。目前就职于搜狗。



分享时间


北京时间10月11日 20:00



参与方式


扫描海报二维码添加社长微信,备注「搜狗



如果你觉得活动不错,欢迎点赞并转发本文~

                    


首页 - AI研习社 的更多文章: