我有一个数据集,其中360 samples
有class 0
,而44 samples
只有class 1
。当我使用KNN model
使k=3
适应数据时,该模型将许多样本误分类为class 0
。处理此类采样数据不均匀的最佳方法是什么?我可以设置k=1
,但是从我的阅读中会导致产生强烈的噪音。
答案 0 :(得分:0)
在CrossValidated上查看this discussion,尤其是第三个答案。例如,提到的一种方法是“按类的大小的倒数”对邻居加权。在您使用k=3
的示例中,这意味着在以下情况下,两个最近的邻居是class 0
,一个最近的邻居是class 1
,自1以来,标签将是class 1
。 / 44> 2/360。这只是一种方法,您可以在上面链接的讨论中查看更多方法。我希望这会有所帮助!