我正在学习使用机器学习技术进行垃圾邮件检测,我在Stack上发现的帖子表明我从朴素贝叶斯分类器开始。
我的问题是:如果我测量的属性是谨慎的,而不是连续的,应该如何合并?在Wikipedia的这个例子中,他们正在训练分类器,根据身高,体重和脚的大小来检测男性与女性。如果有第四类“最喜欢的运动”怎么办?在我的假设样本中,假设你有“足球,足球,游泳,滑冰”。这些值是谨慎/枚举的,而不是连续的。你还能用一个天真的贝叶斯分类器吗?我可以将这些值映射到整数(Football = 1,Swimming = 2),但是在高度和重量(5英尺与10英尺非常不同)之类的差异中存在隐含意义,其中没有这样的隐含意义。枚举之间的差异(足球 - 游泳= -1,那么什么?)
基本上,如果我的身高,身高,体型和喜爱的运动值,我还能使用朴素贝叶斯分类器吗?
答案 0 :(得分:0)
是的,在贝叶斯分类中,您只需确定其支持上的类特定分布,您可以从数据中轻松完成。现在,您可以计算每个班级的后验分布,然后进行地图估算。实际上,对于文档,为文档类别定义为垃圾邮件或非垃圾邮件,为字典中的每个单词定义分发。有关详细信息,请参阅有关机器学习入门的安排说明