Question

我在分类项目中使用KNN

我试图找到精度最高的K，它只是给了我最高的K，我使用的是更多的自动化过程，而不是使用弯头法。

k=6
acc_array=np.zeros(k)
for n in range(1,k):
    classifier=KNeighborsClassifier(n_neighbors=k).fit(x_train,y_train)
    y_pred=classifier.predict(x_test)
    acc=metrics.accuracy_score(y_test, y_pred)
    acc_array[k-1]=acc
max_acc=np.amax(acc_array)
acc_list=list(acc_array)
k=acc_list.index(max_acc)
print("The best accuracy was with", max_acc, "with k=",k)

我尝试了不同的值，它是相同的。

Answer 1

您的代码中存在多个错误。

首先，在for循环内，您始终拥有n_neighbors=k，并且k在循环外被定义，因此，它总是相同的。

第二，您使用acc_array[k-1]=acc，并且再次使用k是常量，因此将acc值存储在相同位置。

以下是使用鸢尾花数据集的正确版本：

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics                

# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

k=10
acc_array=np.zeros(k)
for k in np.arange(1,k+1,1): # here k will take values from 1 to 10
    classifier = KNeighborsClassifier(n_neighbors=k).fit(x_train,y_train) # k changes after each iteration
    y_pred = classifier.predict(x_test)
    acc = metrics.accuracy_score(y_test, y_pred)
    acc_array[k-1]=acc # store correctly the results

max_acc=np.amax(acc_array)
acc_list=list(acc_array)
k=acc_list.index(max_acc)
print("The best accuracy was with", max_acc, "with k=", k+1)

在这种情况下，acc对于所有使用的k都是相同的。

acc_array
array([0.98, 0.98, 0.98, 0.98, 0.98, 0.98, 0.98, 0.98, 0.98, 0.98])

如何基于最高的精度在sklearn的KNeighborsClassifier中选择K

1 个答案: