我想绘制一个图,显示使用KNN的误分类错误与de K邻居的关系。
这是我为此构建的代码:
# creating odd list of K for KNN
myList = list(range(1,50))
# subsetting just the odd ones
neighbors = filter(lambda x: x % 2 != 0, myList)
# empty list that will hold cv scores
cv_scores = []
# perform 10-fold cross validation
for k in neighbors:
knn = KNN(n_neighbors=k, n_jobs = 6, metric = 'minkowski', contamination = 0.05)
scores = cross_val_score(knn, X_test, pred, cv=10, scoring='accuracy')
cv_scores.append(scores.mean())
### Create Plot
import matplotlib.pyplot as plt
plt.style.use('ggplot')
# changing to misclassification error
MSE = [1 - x for x in cv_scores]
# determining best k
optimal_k = neighbors[MSE.index(min(next(iter(MSE))))]
print ("The optimal K neighbors number is %d" % optimal_k)
# plot misclassification error vs k
plt.plot(neighbors, MSE, figsize = (20,12))
plt.xlabel('Number of Neighbors K')
plt.ylabel('Misclassification Error')
plt.show()
问题出在这一行:
optimal_k = neighbors[MSE.index(min(next(iter(MSE))))]
此代码似乎是用python 2编写的。这是原始行:
optimal_k = neighbors[MSE.index(min(MSE))]
我添加了next()
和iter()
来解决此问题,正如一些其他类似线程中的用户所建议的那样。但是我遇到了这个错误:
TypeError: 'numpy.float64' object is not iterable
我知道为什么会发生此错误,它应该遍历列表,但仅使用数字。我认为问题来自此行上的filter()
使用:
neighbors = filter(lambda x: x % 2 != 0, myList)
我该如何修复此代码以在python 3上运行并防止这种情况发生?
预先感谢
编辑:
我要使用的KNN版本不是sklearn中的版本,对于那些想尝试此代码的人来说。它来自一个名为PYOD的异常检测程序包。链接here
您也可以使用sklearn的原始KNN进行尝试,但请注意,您需要删除污染参数,也许还要删除距离参数
答案 0 :(得分:1)
问题在于代码将neighbors
定义为生成器,并在第一个循环中将其用尽。解决方案:使用列表。
neighbors = list(filter(lambda x: x % 2 != 0, myList))
同样,您获得最佳算法的原始语法是正确的(不需要iter
或next
):
optimal_k = neighbors[MSE.index(min(MSE))]