应用MCA等降维方法后如何减少新数据/输入的维数

时间:2019-02-17 12:24:58

标签: machine-learning dimensionality-reduction

我有这样的分类训练

col1   col2   col3   col4
 9      8      10     9
10      8       9     9
.....................

在我通过在其上应用MCA(多重对应分析)来缩小尺寸后,我得到了类似的东西

dim1    dim2
0.857  -0.575
0.654   0.938
.............

现在我的问题是如何找到像这样的新数据的(dim1,dim2)作为输入?

col1  col2   col3  col4
10     9       8     8

在训练集上执行后,MCA的输出是特征值,惯性等

我在python中的代码:

from sklearn.cluster import KMeans
import prince
data = pd.read_csv("data/training set.csv")
X = data.loc[:, 'OS.1':'DSA.1']
size = len(X)
X = X.values.tolist()

#...
#data preprocessing
#...

df = pd.DataFrame(X)
mca = prince.MCA(
               n_components=2,
               n_iter=3,
               copy=True,
               check_input=True,
               engine='auto',
               random_state=42
                )

mca = mca.fit(df)
X = mca.transform(df)

km = KMeans(n_clusters=3)
km.fit(X)

1。我想接受用户的输入 2.在使用MCA进行尺寸缩减之前进行预处理 3.使用K均值预测它的聚类

1 个答案:

答案 0 :(得分:1)

您只需要使MCA对象mca保持活动状态就可以使用它来转换新的输入数据。为此,只需调用transform method on your new data

from sklearn.cluster import KMeans
import prince
data = pd.read_csv("data/training set.csv")
X = data.loc[:, 'OS.1':'DSA.1']
size = len(X)
X = X.values.tolist()

#...
#data preprocessing
#...

df = pd.DataFrame(X)
mca = prince.MCA(
               n_components=2,
               n_iter=3,
               copy=True,
               check_input=True,
               engine='auto',
               random_state=42
                )

mca = mca.fit(df)
X = mca.transform(df)

km = KMeans(n_clusters=3)
km.fit(X)

# New data into x_new
# 1. Preprocess x_new as you preprocessed x
# Reuse mca on x_new
df_new = pd.DataFrame(x_new)
X_new = mca.transform(df_new)

# predictions
km.predict(X_new)