应用错误收集

时间：2017-05-26 17:01:19

标签： machine-learning neural-network svm sparse-file

我打算做一个是/否的分类器。问题是数据不是来自我，所以我必须处理我所得到的。我有大约150个样本，每个样本包含3个特征，这些特征是连续的数字变量。我知道数据集非常小。我想问你两个问题：

A）最好的机器学习算法是什么？ SVM？一个神经网络？我读过的所有内容似乎都需要一个大数据集。

B）我可以通过添加一些不包含所有特征的样本来使数据集更大一些，只有一个或两个。我已经读过你可以在这种情况下使用稀疏向量，这可能与每个机器学习算法一起使用吗？（我在SVM中看到过它们）

非常感谢你的帮助!!!

答案 0 :(得分：1)

我的建议是使用简单直接的算法，例如决策树或逻辑回归，但是，您引用的算法应该同样有效。

数据集大小应该不是问题，因为您拥有的样本远远多于变量。但更多数据总是有帮助。

答案 1 :(得分：-1)

Naive Bayes是一个很好的选择，适用于训练样例很少的情况。与逻辑回归相比，Ng和Jordan表明，Naive Bayes可以通过更少的训练样例更快地收敛到其最佳性能。（参见本book chapter的第4节。）非正式地说，朴素贝叶斯模拟了在这种情况下表现更好的联合概率分布。

在这种情况下不要使用决策树。决策树有过度拟合的倾向，当你的训练数据很少时，这个问题就会加剧。