我正在制作有关葡萄酒质量的UCI数据集。我已经应用了多个分类器,k-nearest neighbor就是其中之一。我想知道是否有办法使用5倍交叉验证找到最近邻居的k的确切值。如果是的话,我该如何应用呢?如何使用5倍CV获得决策树的深度?
谢谢!
答案 0 :(得分:0)
我在这里假设你的意思是k值,它会返回葡萄酒质量模型中的最低误差。
我发现好的k可能取决于你的数据。稀疏数据可能更喜欢较低的k,而较大的数据集可能更适合较大的k。在我的大多数工作中,5到10之间的k对于大量案例的问题非常有用。
试验和错误有时可能是最好的工具,但是不应该花太长时间才能看到建模错误的趋势。
希望这有帮助!