K最近邻居Python

时间:2019-03-18 12:41:33

标签: python data-science knn training-data test-data

我是数据挖掘的新手,我试图在单独的训练和测试数据集上实施KNN分类器。我看到的所有教程都使用train_test_split方法拆分数据集,而我已经将数据集拆分为Train和Test。如何分配目标变量?

1 个答案:

答案 0 :(得分:1)

我假设您的test数据已被标记(即逻辑上分为test_X和test_y,并且您将用它来测试您对train数据训练的模型的性能。 / p>

  1. 将火车数据加载到(train_X,train_y)中并将测试数据加载到(test_X,test_y)

  2. 使用训练数据训练模型

from sklearn.neighbors import KNeighborsClassifier
knn_clf = KNeighborsClassifier()
knn_clf.fit(train_X, train_y)
  1. 预测测试数据
y_pred = model.predict(test_X)
  1. 检查预测的准确性
import numpy as np
accuracy = np.mean(test_y == y_pred)