为什么我从头开始构建的KNN算法不起作用?

时间:2018-07-02 11:18:32

标签: python pandas machine-learning knn

我尝试从头开始创建KNN算法。我的数据集是pandas DataFrame。该算法始终返回1.0(预测总是与实际结果完全匹配),我担心出现了问题,尽管我不知道是什么。非常感谢您提供任何帮助。

这是我的代码:

def get_neighbors(train,row,n):
      distances=list()
      for i in range(len(test)):
        dist=euclidean_distance(row,train.iloc[i])
        distances.append((row,dist))
      distances.sort(key=lambda tup: tup[1])
      neighbors=list()
      for i in range(n):
        neighbors.append(distances[i][0])
      return neighbors

def predict_classification(train,row,n):
  neighbors=get_neighbors(train,row, n)
  output_values=[row.iloc[-1]for row in neighbors]
  prediction=max(set(output_values),key=output_values.count)
  return prediction
import math

def euclidean_distance(row1,row2):
  distance = 0.0
  for i in range((row1.shape[0])):
    distance+=(row1[i] -row2[i]) ** 2
  return math.sqrt(distance)

def k_nearest_neighbors(train,test,n):
  predictions=list()
  for i in range(len(test)):
    output=predict_classification(train,test.iloc[i],n)
    predictions.append(output)
  return(predictions)


train=dataset.iloc[0:500]
test=dataset.iloc[500:600]
df=po.DataFrame()
df["Actual"]=test["Outcome"]
df["Predicted"]=k_nearest_neighbors(train,test,5)

1 个答案:

答案 0 :(得分:0)

我没有彻底检查您的代码,但是您在这里遇到了几个问题。其中一些是:

  1. 您没有使用任何标签。从您的代码中,您可能会怀疑最后一列是标签,但是您不应该使用它们来计算距离,例如在这里:dist=euclidean_distance(row,train.iloc[i])
  2. 您将在此处附加相同的示例:distances.append((row,dist))不是您想要的。附加训练集的行(虽然效率不高)
  3. 由于这里没有标签,因此很混乱:output_values=[row.iloc[-1]for row in neighbors]
  4. 效率问题。你为什么要和熊猫一起工作?使用numpy进行实际工作,完成后将其传递给熊猫。
  5. 您使用的功能过多,无法进行分类。只需迭代计算距离的训练数据即可。获取检测到的n邻居的索引(而不是实际样本),并在投票后将其与您的真实情况进行比较。您不需要像实际一样将实际样本保存在某个地方。