如果我以百分比分割应用更多测试数据,那么使用朴素贝叶斯的示例会使算法变得更可靠吗?
答案 0 :(得分:1)
将整个数据集拆分为训练和测试的关键在于,您想要学习的模型(朴素的贝叶斯或其他)应该反映因果关系(特征和预测)之间的真实关系,而不仅仅是数据。例如,您可以始终将曲线完美地拟合到多个数据点,但这样做可能会使您对您尝试进行的预测毫无用处。
通过使用单独的测试集,可以在看不见的数据上测试学习模型。理想情况下,训练和测试集上的错误(或者你测量的任何内容)大致相同,这表明你的模型相当普遍,而且不适合训练数据。
如果在您的情况下减小训练集的大小会提高测试集的性能,则表明学习模型过于具体且不能一概而论。但是,您应该调整学习者的参数,而不是更改训练/测试分割。您可能还需要考虑使用cross validation而不是简单的培训/测试拆分,因为它将提供更可靠的性能估算。