我正在使用具有54个数据点的数据集,使用带有邻居的k-NN分类器在Python中进行分类:20。我的代码进行分类并绘制结果,但我只在散点图中看到22个数据点,没有54个数据点被分类。
机器学习中有没有理由为什么所有数据点都没有被分类和绘制?
所选邻居的数量是否影响被分类和绘制的数据点数?感谢。
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets
import pandas as pd
from sklearn import preprocessing
# Preprocessing of dataset done here.
n_neighbors = 20
dataset = pd.read_csv('cereal.csv')
X = dataset.iloc[:, [3,5]].values
y = dataset.iloc[:, 1].values
y_set = preprocessing.LabelEncoder()
y_fit = y_set.fit(y)
y_trans = y_set.transform(y)
# sorting dataset done here.Total number of data points :77 but 54 will
# be selected to use
j = 0
for i in range (0,77):
if y[i] == 'K' or y[i] == 'G' or y[i] == 'P':
j = j+1
new_data = np.zeros((j,2))
new_let = [0] * j
j = 0
for i in range (0,77):
if y[i] == 'K' or y[i] == 'G' or y[i] == 'P':
new_data[j] = X[i]
new_let[j] = y[i]
j = j+1
# Plotting and setting up mesh grid done here
h = .02
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])
for weights in ['uniform', 'distance']:
# we create an instance of Neighbours Cylassifier and fit the data.
clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
clf.fit(X, y_trans)
# Plot the decision boundary. For that, we will assign a color to each
# point in the mesh [x_min, x_max]x[y_min, y_max].
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
# Put the result into a color plot
Z = Z.reshape(xx.shape)
plt.figure()
plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
plt.scatter(X[:, 0], X[:, 1], c=y_trans, cmap=cmap_bold,
edgecolor='k', s=20)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title("3-Class classification (k = %i, weights = '%s')"
% (n_neighbors, weights))
plt.show()
答案 0 :(得分:0)
首先,您在分类器和绘图中使用数据集的所有77个点。您创建的包含54个点的变量既不用于拟合分类器,也不用于生成结果图。
运行脚本后,您应该检查Anaconda中的Variable Explorer,以查看您正在使用的不同变量的大小。
关于您正在生成的情节,如果您查看数据的分发方式,您将看到为什么您只看到22分:
如果查看原始数据集,有几个点在这两列(脂肪和卡路里)中共享重复值。结果,在情节上,有几个点堆叠在一起,所以尽管你正在绘制77个点,但你只能看到"看到"你的阴谋中有22个。如果你想看到它们都很好地分开,你可能想要选择一些其他属性。