我正在尝试使用KNN包来估算数据框中的缺失值。我的数据框列具有不同的范围,即其中一些的价值远大于其他。
我的理解是,KNN算法使用欧几里得距离来确定最近的邻居。我的疑问是我应该在将数据提供给算法之前将其标准化还是默认情况下将其标准化?
答案 0 :(得分:0)
您可以在代码中的fancyimpute.knn.KNN
类中看到它带有属性normalizer
,该属性可以使用fit()
和transform()
方法设置为任何对象。
默认情况下将其设置为None
,因此您必须显式创建一个规范化器并将其提供给KNN类对象。