分类:添加新变量并计算更改类输出的概率

时间:2016-01-15 18:01:14

标签: machine-learning classification probability

基于几个数字特征(例如,v1 ... .v20),我有2个输出类(好的和差的)。

如果v1,v2,v3和v4为“高”,则该类为“差”。 如果v1,v2,v3和v4为“低”,则该类为“好”

我可以使用ROC和使用随机森林的最小分类错误来获得这样的良好准确度。 但是,我想添加一个新变量v21。我从经验中知道,如果此变量(v21)的值很高,则类可能不会“差”,即使v1,v2,v3和v4为高。当变量v21很高时(虽然变量v1,v2,v3和v4很高),获得“差”类的概率很低。

1)如何在分类中使用我对v21的了解来提高准确性?哪种是合适的分类技术? 2)由于我的实际数据符合我的理解,无论如何,我可以计算当v21的值高且v1,v2,v3和v4的值高时获得“差”类的概率?

2 个答案:

答案 0 :(得分:1)

贝叶斯概率允许通过选择先前的分布来结合您的之前的信念和知识。

https://en.wikipedia.org/wiki/Prior_probability

通过这种方式,您的实际数据将与先前的信念合并,形成您的最终后验分布。

因此,您在此案例中的先前分发应包含

的信息
P(myclass =poor|v1,v2,v3,v4) is high
P(myclass =poor|v21) is low

答案 1 :(得分:0)

我遇到过类似的问题。即使我事先了解变量的影响,我也经常运行一个无偏的算法,如SVM,来对数据进行分类。然后我检查一下我的SVM是否正确。我还检查SVM是否与我已经知道的变量一致。如果SVM失败,我会尝试神经网络。希望这有帮助!