选择高K值,同时在KNN weka中留下一个CV用于回归问题

时间:2016-01-18 22:17:04

标签: machine-learning regression weka data-mining knn

我正在尝试使用 IBk(KNN)算法计算weka中的回归问题。

最近我发现了相关系数值 -1 的奇怪结果。

我可以将K指定为一个非常大的数字吗?让我们说K等于我的数据集的一些实例,当我将K值设置得很高时,我可以让一个交叉验证吗?

如果它们都是真的而且没有问题。 我们如何解释r = -1的结果?

因为r = -1意味着非常强的负相关。那么你是否认为我是否因为机器学习和统计学的观点而将K设置为一个大数并且同时使 LOOCV 出错?

1 个答案:

答案 0 :(得分:0)

关于第一个问题:

如果您指定k=n,那么所有数据点都是最近的邻居。结果基本上是平均/最可能的值。

关于你的第二个问题:

非常高的价值既不是一个好主意。通常有太多的数据点与原始值不再相似。 kNN的目标通常是处理异常值和噪声。但这只需要一些额外的数据点

但是你可以做的是做一个加权的k-NN,其中每个数据点按其距离加权。然而,这通常是昂贵的。