应用错误收集

时间：2017-10-06 06:26:23

标签： python scikit-learn classification data-science knn

我有4个不同的数据集，每个数据集包含属于两个类别之一的二维样本：1或2.每个样本的类标签（1或2）位于最后一列。第一列和第二列包含表示样本的2D点的坐标。我的任务是，

我是机器学习和python的新手。请让我知道如何找到最好的k，并根据我们选择最佳k的措施。

答案 0 :(得分：1)

请注意，您案例中的k是hyperparameter。要对其进行调整，您需要将数据集拆分为训练和测试存储桶，并对测试的每个元素进行多次分类，以获得一系列值k，例如1到20.计算每种情况下的准确度（或精度/召回率）。

然后绘制每个k的精度值，并选择足够小的k，这样可以获得“良好”的精度。通常，人们会查看图表的斜率并选择最小的k，例如之前的值k-1会显着降低精度。

请注意，值k将高度依赖于您的数据。例如，在下面的图表中（信用：https://kevinzakka.github.io/2016/07/13/k-nearest-neighbor/），k的良好选择将是8，因为它导致最低的错误分类错误。