我正在研究为数据集使用决策树和神经网络的优缺点。我一直在互联网上试图找到答案,但我似乎发现的只是大局中各自的利弊。基本上我正在试图弄清楚为什么决策树和神经网络对特定数据集有益。我假设如果数据集大或小,异常值和缺失数据会影响使用决策树或神经网络是准确还是不准确。提前致谢
答案 0 :(得分:0)
以下是我对机器学习模式选择的看法:
1)神经网络是最灵活的,可以是好的也可以是坏的。对于有数百万训练样例的任务,神经网络通常表现最佳。
2)如果您的训练样例很少(例如,每个维度特征向量可能有10个或更少的训练样例),那么神经网络将面临过度拟合的风险。灵活性较低的模型,例如决策树或朴素的贝叶斯,可能会做得更好。但是,如果你仔细调整元参数以减少过度拟合,你仍然可以在这些情况下使用神经网络。
3)如果您的训练样例很少,并且您尝试建模的基本现象太复杂,无法用简单的决策边界进行建模,那么通用模型都不会表现良好。但是,如果您对该现象有先验知识(例如,如果您知道描述它的物理方程的形式),那么您可以制作自己的自定义模型,并使用梯度下降训练其未知参数。
Andrew Ng's free machine learning course是一个很好的资源,可以解释有关过度拟合和模型选择的一些经验法则和直觉。