我正在尝试使用 IBk(KNN)算法计算weka中的回归问题。
最近我发现了相关系数值 -1 的奇怪结果。
我可以将K指定为一个非常大的数字吗?让我们说K等于我的数据集的一些实例,当我将K值设置得很高时,我可以让一个交叉验证吗?
如果它们都是真的而且没有问题。 我们如何解释r = -1的结果?
因为r = -1意味着非常强的负相关。那么你是否认为我是否因为机器学习和统计学的观点而将K设置为一个大数并且同时使 LOOCV 出错?
答案 0 :(得分:0)
关于第一个问题:
如果您指定k=n
,那么所有数据点都是最近的邻居。结果基本上是平均/最可能的值。
关于你的第二个问题:
非常高的价值既不是一个好主意。通常有太多的数据点与原始值不再相似。 kNN的目标通常是处理异常值和噪声。但这只需要一些额外的数据点
但是你可以做的是做一个加权的k-NN,其中每个数据点按其距离加权。然而,这通常是昂贵的。