我正在使用一个数据集来预测一个人是否患有糖尿病。如果在我的数据集中,糖尿病阴性的观察数量是阳性的10倍,是否已经给出了我的贝叶斯只会学习和预测阴性,因为它比其他观察结果更多?
答案 0 :(得分:1)
假设您之前的结果概率为:P(not_diabetic)= 0.9且P(糖尿病)= 0.1。
这是不平衡训练集的一个例子,会对学习者的行为产生不利影响。将P(糖尿病)> 0.5作为糖尿病患者和其他患者作为非糖尿病患者分类将不会在您的情况下给出良好的结果。
验证分类器时,需要使用一种方法,该方法会考虑训练集的不平衡先验对后验概率的影响,例如Bayesian information Reward。
您可以查看此paper,了解不平衡训练集对贝叶斯分类器的影响。