我想创建一个带有Keras的音频分类系统,它只是确定给定的样本是否包含人声。没有其他的。这将是我的第一次机器学习尝试。
此音频预处理器存在。它声称没有完成,但已分叉了几次:
https://github.com/drscotthawley/audio-classifier-keras-cnn
我不明白这个会如何运作,但我已经准备好试一试:
https://github.com/keunwoochoi/kapre
但是,让我说我有其中一个工作,其余的过程是否与图像分类相似?基本上,我从未完全理解何时使用Softmax以及何时使用ReLu。一旦我将数据映射为张量,这与声音是否相似?
答案 0 :(得分:2)
声音可以看作是一维图像,可与1D卷积一起使用。 通常,扩张的卷积可能会做得很好,请参阅Wave Nets
声音也可以看作序列并与RNN图层一起使用(但可能它们的数据量过大)
对于您的情况,您只需要一个输出,最后激活'sigmoid'
并且'binary_crossentropy'
丢失。
何时使用'softmax'?
softmax函数适用于多类问题(不是您的情况),因为您只需要一个类。 softmax函数的所有结果将总和1.它的意图类似于每个类的概率。
它主要用于最后一层,因为你只将类作为最终结果。
对于只有一个类正确的情况很有用。在这种情况下,它与损失categorical_crossentropy
相得益彰。
模型中间的Relu和其他激活
这些都不是很严格。有很多可能性。我经常看到图像卷积模型中的relu。
要知道的重要事项是“范围”。他们的产出有什么限制?
答案 1 :(得分:1)