应用错误收集

时间：2019-05-01 04:15:07

标签： python machine-learning svm knn

我有一个由人口普查数据（年龄，性别，就业类型，种族，教育程度等）组成的数据集。我的任务是编写一种算法，预测一个数据点（30个，男性，白人等）的年总收入是否超过5万美元。

到目前为止，我实现了一个KNN算法，该算法可以运行30小时，但是在测试数据上的准确率达到90％。我希望使用SVM算法，朴素贝叶斯（Naive Bayes）或其他可能在此起作用的方法来达到更高的精度。

我正在寻找一种算法，该算法在python中相对容易实现（大约与KNN一样困难），并且有可能实现良好的准确性。在这种情况下最好的选择是什么？如果KNN是最佳选择，出于比较目的，哪种算法最容易实现？

答案 0 :(得分：0)

很难告诉先验哪种算法会更好。通常，对于像您这样的传统分类任务，随机森林，梯度提升机和SVM通常会提供最佳结果。

我不知道通过寻找一种“实现起来相对简单”的算法是什么意思，但是如果您使用scikit-learn，则已经实现了很多算法，它们可以适合一两行代码，以便您可以全部尝试！