被分类和绘制的数据点的数量与数据集中的点数不匹配

时间:2018-05-07 14:39:15

标签: python pandas machine-learning scikit-learn knn

我正在使用具有54个数据点的数据集,使用带有邻居的k-NN分类器在Python中进行分类:20。我的代码进行分类并绘制结果,但我只在散点图中看到22个数据点,没有54个数据点被分类。

机器学习中有没有理由为什么所有数据点都没有被分类和绘制?

所选邻居的数量是否影响被分类和绘制的数据点数?感谢。

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets
import pandas as pd
from sklearn import preprocessing

# Preprocessing of dataset done here.
n_neighbors = 20
dataset = pd.read_csv('cereal.csv')
X = dataset.iloc[:, [3,5]].values
y = dataset.iloc[:, 1].values
y_set = preprocessing.LabelEncoder()
y_fit = y_set.fit(y)
y_trans = y_set.transform(y)

# sorting dataset done here.Total number of data points :77 but 54 will 
# be selected to use
j = 0
for i in range (0,77):
if y[i] == 'K' or y[i] == 'G' or y[i] == 'P':
    j = j+1

new_data = np.zeros((j,2))
new_let = [0] * j
j = 0

for i in range (0,77):
if y[i] == 'K' or y[i] == 'G' or y[i] == 'P':
    new_data[j] = X[i]
    new_let[j] = y[i]
    j = j+1

# Plotting and setting up mesh grid done here

h = .02
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

for weights in ['uniform', 'distance']:
# we create an instance of Neighbours Cylassifier and fit the data.
clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
clf.fit(X, y_trans)

# Plot the decision boundary. For that, we will assign a color to each
# point in the mesh [x_min, x_max]x[y_min, y_max].

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

# Put the result into a color plot
Z = Z.reshape(xx.shape)
plt.figure()
plt.pcolormesh(xx, yy, Z, cmap=cmap_light)

plt.scatter(X[:, 0], X[:, 1], c=y_trans, cmap=cmap_bold,
            edgecolor='k', s=20)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title("3-Class classification (k = %i, weights = '%s')"
          % (n_neighbors, weights))
plt.show()

1 个答案:

答案 0 :(得分:0)

首先,您在分类器和绘图中使用数据集的所有77个点。您创建的包含54个点的变量既不用于拟合分类器,也不用于生成结果图。

运行脚本后,您应该检查Anaconda中的Variable Explorer,以查看您正在使用的不同变量的大小。

关于您正在生成的情节,如果您查看数据的分发方式,您将看到为什么您只看到22分:

Cereal K-NN

如果查看原始数据集,有几个点在这两列(脂肪和卡路里)中共享重复值。结果,在情节上,有几个点堆叠在一起,所以尽管你正在绘制77个点,但你只能看到"看到"你的阴谋中有22个。如果你想看到它们都很好地分开,你可能想要选择一些其他属性。