深度神经网络可识别0到20的语音

时间:2019-12-17 10:54:08

标签: neural-network

我想实现一个神经网络,该网络能够识别从0到20的口语英语数字以及两个或三个其他的单音节单词。然后,我将使用AI来控制一个简单的游戏。我想问你一些建议。你认为有可能吗?

使其可行且相对容易吗?一个人,很多人讲母语的人很重,很多人有很多重音?

我应该从语音中提取哪些数据以输入网络;长度,体积,随时间变化的组件频率或其他?我打算分别识别每个单词。

我应该首先检查哪些网络体系结构。这里有人做过类似的事情吗?

您在这里还能看到什么其他挑战?

如果有任何问题,我会通知您我的进度:) 谢谢!

1 个答案:

答案 0 :(得分:0)

我相信建立一个神经网络来完成这么复杂的事情将相当容易。我建议不要使用音量或频率进行测量,因为这样您将训练AI识别使其特定于您的一组测试数据的事物,而音量将取决于许多因素,例如一个人的声音大小,好坏。他们的麦克风是。频率取决于他们是男性还是女性。成人或儿童。我建议重点关注平均长度,因为20总是要花费更长的时间才能说出无论怎么说和多少声音,然后才需要说一个,然后AI会基于此学习。

编辑: 我还要说的是不要采样音量,而要测试幅度。尝试找出音频中峰值音量发生的位置,因为这将区分某些元音。在工作开始时,“一个”的峰值为O,而在“ ee”的结尾,三个峰值为高,“ ee”的音高高于

因此,在神经网络中,这两个因素将被视为2个独立的神经元。 1表示长度,1表示样品中最高振幅的位置。