neural-network - 深度神经网络可识别0到20的语音

我想实现一个神经网络，该网络能够识别从0到20的口语英语数字以及两个或三个其他的单音节单词。然后，我将使用AI来控制一个简单的游戏。我想问你一些建议。你认为有可能吗？

使其可行且相对容易吗？一个人，很多人讲母语的人很重，很多人有很多重音？

我应该从语音中提取哪些数据以输入网络；长度，体积，随时间变化的组件频率或其他？我打算分别识别每个单词。

我应该首先检查哪些网络体系结构。这里有人做过类似的事情吗？

您在这里还能看到什么其他挑战？

如果有任何问题，我会通知您我的进度：) 谢谢！

我相信建立一个神经网络来完成这么复杂的事情将相当容易。我建议不要使用音量或频率进行测量，因为这样您将训练AI识别使其特定于您的一组测试数据的事物，而音量将取决于许多因素，例如一个人的声音大小，好坏。他们的麦克风是。频率取决于他们是男性还是女性。成人或儿童。我建议重点关注平均长度，因为20总是要花费更长的时间才能说出无论怎么说和多少声音，然后才需要说一个，然后AI会基于此学习。

编辑：我还要说的是不要采样音量，而要测试幅度。尝试找出音频中峰值音量发生的位置，因为这将区分某些元音。在工作开始时，“一个”的峰值为O，而在“ ee”的结尾，三个峰值为高，“ ee”的音高高于

因此，在神经网络中，这两个因素将被视为2个独立的神经元。 1表示长度，1表示样品中最高振幅的位置。

深度神经网络可识别0到20的语音

1 个答案: