我打算做一个是/否的分类器。问题是数据不是来自我,所以我必须处理我所得到的。我有大约150个样本,每个样本包含3个特征,这些特征是连续的数字变量。我知道数据集非常小。我想问你两个问题:
A)最好的机器学习算法是什么? SVM?一个神经网络?我读过的所有内容似乎都需要一个大数据集。
B)我可以通过添加一些不包含所有特征的样本来使数据集更大一些,只有一个或两个。我已经读过你可以在这种情况下使用稀疏向量,这可能与每个机器学习算法一起使用吗? (我在SVM中看到过它们)
非常感谢你的帮助!!!
答案 0 :(得分:1)
我的建议是使用简单直接的算法,例如决策树或逻辑回归,但是,您引用的算法应该同样有效。
数据集大小应该不是问题,因为您拥有的样本远远多于变量。但更多数据总是有帮助。
答案 1 :(得分:-1)
Naive Bayes是一个很好的选择,适用于训练样例很少的情况。与逻辑回归相比,Ng和Jordan表明,Naive Bayes可以通过更少的训练样例更快地收敛到其最佳性能。 (参见本book chapter的第4节。)非正式地说,朴素贝叶斯模拟了在这种情况下表现更好的联合概率分布。
在这种情况下不要使用决策树。决策树有过度拟合的倾向,当你的训练数据很少时,这个问题就会加剧。