我想知道是否有人尝试使用3维矩阵进行逻辑回归?我正在一个涉及音频的项目中,对于矩阵X,n维度是每个音频样本的特征,而m维度是我正在相互比较的音频文件的数量。我面临的问题是,对于每个音频文件,都有许多音频样本(每个44100个样本,我将其称为“ 1个样本”),每个样本都包含每个不同的功能。我不仅考虑对每个音频样本取每个特征的平均值,还考虑将如上所述的第三维标注添加到矩阵中,即音频样本。问题是,我不知道这在逻辑回归中将如何保持/我期望我的输出变量y是什么。有人对此有任何经验吗?
我要寻找的结果是一种从每个音频样本中获取所有功能并比较多个音频文件以提出一种算法的方法,该算法可以从“不良”音频混合中确定“良好”音频混合,所以我相信(尽管不确定)我在这里只处理两个输出类(好与坏)。
感谢您的建议
答案 0 :(得分:0)
由于您要处理音频输入,因此可能应该使用设计为处理序列(音频=帧序列)的模型。
我希望(说)对音频信号进行LSTM训练将至少与在均值帧上训练的逻辑回归一样好。 但是,培训时间可能会更长。
您可能想从以下所列的github项目之一开始: https://github.com/topics/audio-classification (我从未使用过这些。)