由于大小数据

时间:2018-02-01 16:50:16

标签: python machine-learning scikit-learn neural-network

训练我的分类器时遇到问题。

我有10种不同类型的音乐流派,每种类型都有100首歌曲,制作了Mfccs之后,我有一个(1293,20)

的numpy数组

如果与np.vstack一起,我有一个(1293000,20)的数组,另一个是标签。

当我运行model.fit (features, labels)时,需要花费很多时间。

我也尝试过:

from sklearn.manifold import TSNE
X_embedded = TSNE (n_components = 2).fit_transform(features)
X_embedded.shape

我试图将歌曲从1000减少到100,但它仍然需要很长时间。

我知道如何用包含大量数据的数组对歌曲进行分类吗?

我放了一些代码:

scaler = sklearn.preprocessing.StandardScaler()
y, sr = librosa.load('EXAMPLE1')
mfcc = librosa.feature.mfcc(y, sr=sr, n_mfcc=20).T
mfcc_scaled = scaler.fit_transform(mfcc)
mfcc_scaled.shape # (1293, 20)

y, sr = librosa.load('/Users/josetorronteras/AnacondaProjects/Neural-Networks/genres/pop/pop.00044.au')
mfcc2 = librosa.feature.mfcc(y, sr=sr, n_mfcc=20).T
mfcc_scaled2 = scaler.fit_transform(mfcc2)
mfcc_scaled2.shape # (1293, 20)

tmp_arr = []
tmp_arr.append(mfcc_scaled)
tmp_arr.append(mfcc_scaled2)
mafcc_list = np.vstack(tmp_arr)

mafcc_list.shape # (2586, 20)
a0 = np.zeros(len(mfcc_scaled))
a1 = np.ones(len(mfcc_scaled2))

labels = np.concatenate((a0, a1))
labels.shape # (2586,)

由于

0 个答案:

没有答案