例如,如果我们给出的训练集具有超过10000个数据点(训练集的大小),并且没有超过100000的特征,并且类标签接近20左右。那么在这种情况下哪个分类器(如决策树的方法, svm,朴素贝叶斯,神经网络,增强)会给我最准确的分类测试数据的类标签。
答案 0 :(得分:4)
如评论中所述,没有一般规则。
由于你有相当多的训练样例和非常多的特征,你可能想要某种鼓励特征稀疏性的分类器。我首先尝试使用具有L1或弹性净罚分的SGD线性分类器。
另见Andreas Mueller's flow chart of algorithms to try: