将KMeans应用于pandas DataFrame

时间:2018-06-14 08:19:45

标签: python pandas k-means

DatasetImage

DatasetImage

#KMEANS
import collections
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.002)

kmeans=KMeans(n_clusters=2)
kmeans.fit(X_train)
labels = kmeans.predict(X_test)
//X and y in train_test_split stands for:

X=newTotalDataset.drop('identifier',axis=1)
y=newTotalDataset['identifier']

我有一个包含44个功能和30000行的数据框

打印(collections.Counter(标签))。最后一个是一个标识符,表示该行是分配给一个人还是一个人0。 我在训练和测试中拆分了我的数据集,并删除了我的最后一个功能。

问题在于我打印"标签",因为它告诉我所有行都属于人0

标签中0和1的计数器的结果是这样的:     计数器({0:103})

它是如何可能的?什么错了?

1 个答案:

答案 0 :(得分:0)

如果你在预测之前有标签,你想要进行有监督的学习而你没有使用好的算法,请看一些模型,如:

  • 逻辑回归
  • 随机森林分类器
  • SVM分类器

和其他人