应用错误收集

如何将语音文件输入RNN / LSTM进行语音识别？

时间：2019-02-01 00:50:18

标签： machine-learning deep-learning lstm recurrent-neural-network

我正在研究RNN / LSTM。我已经用RNN完成了一个简单的项目，在其中我将文本输入到RNN中。但是我不知道如何将语音输入到RNN中以及如何对递归网络进行语音预处理。我已经从中型网站和其他网站上阅读了许多文章。但是我无法在网络中使用语音。您可以共享任何涉及语音和RNN / LSTM的项目，也可以共享任何对我有帮助的项目。

1 个答案:

答案 0 :(得分：0)

您将需要将原始音频信号转换成声谱图或使用RNN / LSTMS易于处理的其他方便格式。 This个中等博客应该会有所帮助。您可以查看this github repo进行实施。

搜索文件的语音识别
如何将语音识别器提供给要查看的单词列表
基于Theano的库用于基于RNN的语音识别
使用TensorFlow进行端到端语音识别的RNN
如何为RNN的每个时间戳构建一个Dense层，并将每个Dense的输出反馈到RNN？
为RNN构建语音数据集
RNN的Keras实现
如何将语音文件输入RNN / LSTM进行语音识别？
如何为UIS-RNN的说话人歧视问题创建d矢量？
如何在语音情感特征中应用lstm

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？