确定分类问题的最佳算法

时间:2019-05-01 04:15:07

标签: python machine-learning svm knn

我有一个由人口普查数据(年龄,性别,就业类型,种族,教育程度等)组成的数据集。我的任务是编写一种算法,预测一个数据点(30个,男性,白人等)的年总收入是否超过5万美元。

到目前为止,我实现了一个KNN算法,该算法可以运行30小时,但是在测试数据上的准确率达到90%。我希望使用SVM算法,朴素贝叶斯(Naive Bayes)或其他可能在此起作用的方法来达到更高的精度。

我正在寻找一种算法,该算法在python中相对容易实现(大约与KNN一样困难),并且有可能实现良好的准确性。在这种情况下最好的选择是什么?如果KNN是最佳选择,出于比较目的,哪种算法最容易实现?

1 个答案:

答案 0 :(得分:0)

很难告诉先验哪种算法会更好。通常,对于像您这样的传统分类任务,随机森林,梯度提升机和SVM通常会提供最佳结果。

我不知道通过寻找一种“实现起来相对简单”的算法是什么意思,但是如果您使用scikit-learn,则已经实现了很多算法,它们可以适合一两行代码,以便您可以全部尝试!