我有这样的分类训练
col1 col2 col3 col4
9 8 10 9
10 8 9 9
.....................
在我通过在其上应用MCA(多重对应分析)来缩小尺寸后,我得到了类似的东西
dim1 dim2
0.857 -0.575
0.654 0.938
.............
现在我的问题是如何找到像这样的新数据的(dim1,dim2)作为输入?
col1 col2 col3 col4
10 9 8 8
在训练集上执行后,MCA的输出是特征值,惯性等
我在python中的代码:
from sklearn.cluster import KMeans
import prince
data = pd.read_csv("data/training set.csv")
X = data.loc[:, 'OS.1':'DSA.1']
size = len(X)
X = X.values.tolist()
#...
#data preprocessing
#...
df = pd.DataFrame(X)
mca = prince.MCA(
n_components=2,
n_iter=3,
copy=True,
check_input=True,
engine='auto',
random_state=42
)
mca = mca.fit(df)
X = mca.transform(df)
km = KMeans(n_clusters=3)
km.fit(X)
1。我想接受用户的输入 2.在使用MCA进行尺寸缩减之前进行预处理 3.使用K均值预测它的聚类
答案 0 :(得分:1)
您只需要使MCA对象mca
保持活动状态就可以使用它来转换新的输入数据。为此,只需调用transform method on your new data
from sklearn.cluster import KMeans
import prince
data = pd.read_csv("data/training set.csv")
X = data.loc[:, 'OS.1':'DSA.1']
size = len(X)
X = X.values.tolist()
#...
#data preprocessing
#...
df = pd.DataFrame(X)
mca = prince.MCA(
n_components=2,
n_iter=3,
copy=True,
check_input=True,
engine='auto',
random_state=42
)
mca = mca.fit(df)
X = mca.transform(df)
km = KMeans(n_clusters=3)
km.fit(X)
# New data into x_new
# 1. Preprocess x_new as you preprocessed x
# Reuse mca on x_new
df_new = pd.DataFrame(x_new)
X_new = mca.transform(df_new)
# predictions
km.predict(X_new)