相同的测试集

时间:2013-08-21 15:55:19

标签: testing dataset ssas classification bayesian

我有一些评论,我想将它们归类为正面或负面。 到目前为止,我有一个带注释的数据集。

事情是前100行被分类为正,其余100被分类为负。

我正在使用SQL Server Analysis-2008 R2。 Class属性有2个值,POS为正值,NEG为负值。

此外,我使用朴素贝叶斯算法,最大输入/输出属性= 0(想要使用所有属性)进行分类,测试集最大大小写设置为30%。提升图表的当前得分为0.60。

我是否必须将它们混合起来,例如2 POS然后是1 NEG,以获得更好的分类准确度?

1 个答案:

答案 0 :(得分:0)

学习实例的排序不应影响分类性能。 Naive Bayes计算的概率对于数据集中任何实例的排序都是相同的。

但是,选择不同的测试和训练集会影响分类性能。例如,某些实例可能比其他实例更难以分类。

您是否也获得了同样糟糕的培训和考试成绩?如果您的训练表现良好和/或比您的测试表现好得多,您的模型可能会过度拟合。否则,如果你的训练表现也差,我会建议(a)尝试更好/更强/更具表现力的分类器,例如SVM,决策树等;和/或(b)确保您的特征具有足够的代表性/表达力。