我有一个由分类和连续属性组成的数据集。我想应用Naive Bayes分类方法对数据进行分类。
如何计算这两种类型的概率?
我应该使用count方法计算分类数据并假设某些分布并根据连续数据进行计算吗?
答案 0 :(得分:1)
由于Naive Bayes假定您拥有类别标签的每个特征obervation独立
P(cat1, con1|y) = P(cat1|y)P(con1|y)
其中cat1
是某个分类变量且con1
是连续的,您可以完全独立地为每个概率建模。正如你所建议的那样,对于分类,你可以使用简单的经验估计(但要记住一些平滑技术,这样你就不会得到0个概率),而对于连续性,你需要一些更复杂的估计(例如使用固定分布族的MLE - 例如高斯;或者更复杂的东西 - 就像任何概率分类器/模型一样)