标签: r knn
我想使用KNN算法来提高准确性。
我有23个因素(性别,年龄,付款方式,学历等)
问题是变量太多了,所以我想知道哪些是有效变量。
[信息]
数据集-> 10000行,24列
默认为最后一列(1 =是,0 =否)
我将7000个训练集和3000个测试集分开。当我使用所有变量时,我得到大约1000的错误分类。此外,使用ROC曲线显示800错误。但是我想进一步降低错误率。我可以采取什么方法? 如果您编写代码示例,将很有帮助!! :)